读深度强化学习落地指南一书总结

最新推荐文章于 2023-11-16 17:54:54 发布

D_JQ

最新推荐文章于 2023-11-16 17:54:54 发布

阅读量388

点赞数 1

分类专栏：深度强化学习文章标签：人工智能深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dumao0620/article/details/128006574

版权

深度强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

读强化学习落地指南总结

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

前言

reward的主要作用是将任务目标具体化和数值化，实现目标和算法之间的沟通，决定了agent最终能否学习到期望的技能，并直接影响算法的收敛速度和最终性能。

reward负责引导神经网络中的决策相关因素并经过提炼后用于action的生成。

四、action

对于违法的action，直接屏蔽掉，不允许出现。

五、状态

状态代表了agent对环境的感知以及自身的action带来的变化。state直接决定了是否收敛以及收敛速度和最终性能。
增加一个新的状态信息所带来的性能提升明显高于其他的工作（例如调参），性价比非常高。

5.1 设计原则

六、回报函数的设计

6.1 主线reward和稀疏奖励问题

如果主线回报比较稀疏，此时，只有主线reward是不行的；
此时需要分解子目标，分别给予奖励或者惩罚，从而引导agent趋利避害从而提高主线的概率。此时，称为credit assignment。辅助reward一般都设置较小。

6.2 杜绝异常行为

避免有些reward过大，从而使其他reward被掩盖（一棵大树，不给小草生长空间），可以加系数加以调控，但是还不够，是否还有其他（例如vector reward，multiplicative reward）

6.2.1 鲁莽-饮鸩止渴

不要因为某些眼前的奖励，而丧失了主线，饮鸩止渴要不得。

6.2.2 贪婪-目光短浅，蝇头小利，捡芝麻丢西瓜

原地打转，或者微小进步，只是为了获得近期奖励，说明惩罚不够，或者说

6.2.3 胆怯

惩罚项设置大，相对于主线的大，不敢动，畏葸不前。陷入局部

6.3 reward shaping

对于一个奖励来说，在整个训练过程中理想情况不应该是保持不变的，而应该越靠近目标每一步的收获越大，奖励越高，从而更容易引导到目标点，大大加快收敛速度。

6.3.1 势能函数

非线性的奖励函数

十一、其他总结

1、强化学习不宜盲目追求end2end的解决方案，无论是状态还是reward的设计；
2、reward设计的奖励尽可能归一化，否则，波动很大，难以收敛；
3、

七、训练

7.1 环境可视化

这个确实比较重要，具体训练的过程和路线是什么样子的，最起码在前期有个大概的把握，做到心中有数。如果符合自己预期，可以把render去掉，毕竟耗时严重。

7.2 数据预处理

state和reward可以实时打印，观测是否在正常范围内，是否幅值过大。推荐无条件进行归一化，和 rescale & clipping，二者会带来效果的很大提升。
参考形式为 $r=clip(r/(std(Return)+\epsilon ),-10,10)$ ，其中 $\sum_{t=0}^T\gamma^tr_t$
reward只能进行rescale，而不可以进行整体平移（减去均值）。
因为回报函数中的各项reward的符号和他们之间的相对大小决定了实际的功能，各项reward的整体缩放对实际功能没有影响。clip操作实际会有影响，不大。

7.3 训练超参数

7.3.1 折扣因子

$\gamma:$ 此参数调节近远期的影响，也就是做决策时候考虑多长远。
高的折扣 $\gamma=0.99$ 会导致原地不动；
低的折扣 $\gamma=0.9$ 敢于探索；

方法：

折扣因子在算法能够收敛情况下，尽可能的大。
经验公式：
$1/(1-\gamma)$ 作为agent做决策时候，往前考虑的步骤数。

7.3.2 网络结构

不要太大，够用就好
类型取决于state状态空间；
网络深度，虽然越深表征能力越强，但是训练难度高；

7.3.3 学习率

大了收敛快，稳定性差；
小了收敛慢，浪费时间；
淬火操作可以使用；

参考文献

[1] 深度强化学习落地方法论（6）—— 回报函数篇

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读深度强化学习落地指南一书总结

reward的主要作用是将任务目标具体化和数值化，实现目标和算法之间的沟通，决定了agent最终能否学习到期望的技能，并直接影响算法的收敛速度和最终性能。reward负责引导神经网络中的决策相关因素并经过提炼后用于action的生成。如果主线回报比较稀疏，此时，只有主线reward是不行的；此时需要分解子目标，分别给予奖励或者惩罚，从而引导agent趋利避害从而提高主线的概率。此时，称为credit assignment。辅助reward一般都设置较小。避免有些reward过大，从而使其他reward被掩
复制链接

扫一扫

专栏目录

D_JQ

CSDN认证博客专家 CSDN认证企业博客

码龄14年

14: 原创

8万+: 周排名

185万+: 总排名

6万+: 访问

: 等级

208: 积分

12: 粉丝

34: 获赞

11: 评论

157: 收藏

私信

关注

热门文章

分类专栏

最新评论

记录一个故障，ERROR: GLEW initalization error: Missing GL version，mujoco_py
ThanksGNR: 哥们我也有这个问题，看你还没更新，是不是后续没解决
LaTeX论文修改一些实用功能
CSDN-Ada助手: 恭喜您撰写第17篇博客！标题中的“LaTeX论文修改一些实用功能”听起来非常吸引人。您在探索LaTeX这一写作工具方面的持续努力令人钦佩。希望您能继续分享更多关于LaTeX的实用技巧和功能，因为这对于那些希望提升论文质量的读者来说无疑是非常有帮助的。同时，如果您愿意，或许可以考虑分享一些与LaTeX相结合的学术写作技巧，以帮助读者更好地利用这一工具撰写出富有逻辑性和美观度的论文。期待您未来的创作！
Pycharm中一些常见小问题-进入不了虚拟环境
星行夜空: 'conda' 不是内部或外部命令，也不是可运行的程序
Pycharm中一些常见小问题-进入不了虚拟环境
m0_70402821: 试了，还是没用怎么办
Pycharm中一些常见小问题-进入不了虚拟环境
杨馥纯: 叩谢博主！找了大半天终于搞定了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。