深度强化学习落地方法论(2)——需求分析篇

本文探讨了深度强化学习(DRL)在实际应用中的需求分析,指出DRL具有过拟合特性,适合场景固定、目标明确、数据廉价、过程复杂和自由度高的任务。DRL在新环境中的泛化能力有限,但通过元强化学习可改善。文章强调了正确评估需求的重要性,避免不适当的DRL应用。
摘要由CSDN通过智能技术生成

前言

弘扬中华传统美德,丑话要说在前面。任何机器学习方法都不是包治百病的灵丹妙药,它们也有各自的“舒适圈”,有时候还相当挑剔。强化学习,无论前面带不带“深度”二字,也同样有其鲜明的优势和局限性,务必要具体问题具体分析。不管公众号吹嘘得多么厉害,我们自己要摆正心态,不是所有需求都适合用DRL做,适合用DRL做的需求也未必能超越传统方法。

在我看来,算法工程师的核心能力可以总结成三点:1. 对各种算法本质及其能力边界的深刻理解;2. 对问题内在逻辑的深入分析;3. 对两者结合点的敏锐直觉。一个优秀算法工程师的高光时刻从拒绝不合理的需求开始,其他的都是后话。不经慎重评估而盲目上马的项目不仅是对资源的巨大浪费,更让每个参与者陷在深坑中痛不欲生。知道一种算法不能干什么与知道它能干什么同样重要,对DRL而言,即使在最理想的外部条件下,也有其绕不过去的七寸——泛化无能。这是DRL的基本原理决定的,任何在这一点上提出过高要求的应用都不适合用DRL解决。

DRL的过拟合天性

DRL解决的是从过去经验中学习有用知识,并用于后续决策的问题。有别于纯视觉应用,DRL不仅仅满足于识别和定位,而是要根据这些信息采取针对性的行动以获取最大长期收益。从本质上说,DRL就是一种依赖过拟合的算法,说白了就是通过暴力搜索把其中的成功经验记下来,并用以指导后续决策。别嫌露骨,别怕尴尬,岂不闻学术界某大牛的辛辣讽刺仍余音绕梁——强化学习是唯一被允许在训练集上测试的算法。由于缺乏直接监督信号用于训练,DRL还特别“费数据”,以至于需要专门的模拟器源源不断地产生数据供其挥霍。好不容易训出来的policy在训练环境用得好好的ÿ

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值