强化学习算法面试问题 & 解答

最新推荐文章于 2023-06-03 22:20:59 发布

ephramliu

最新推荐文章于 2023-06-03 22:20:59 发布

阅读量393

点赞数

分类专栏：面试文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ao1886/article/details/118424792

版权

本文讨论了强化学习算法面试中常见的问题，包括调参技巧，如学习率、正则化和梯度裁剪的处理；应对稀疏奖励的方法，如奖励重塑和好奇心驱动；理解PPO算法、on-policy与off-policy的区别，以及A3C、IMPALA等训练框架。同时，提出了评估最优策略和降低训练方差的策略。

摘要由CSDN通过智能技术生成

1 你有什么调参技巧

使用论文中的参数作为初始参数，能取得不差的效果
控制变量法，按重要顺序进行调参：学习率 > 正则值 > dropout值
先在小样本集上调参，在放到大样本集上训练
关注超参数范围，例如：对数尺度上调学习率：1e-3，1e-2，1e-1，dropout：0.3，0.5，0.7
使用自适应优化器 / 学习率衰减：在测试集上准确度不再上升时 / 每多少周期后
隐藏层节点数：16 => 32 => 64 => 128
梯度裁剪
L2正则：1.0，超过10较少见
关注正负样本比例，特别是分类任务的样本是否均匀
出现问题时，应考虑模型，数据，有无bug等因素
使用 random search，其优于 grid search
梯度归一化
出现Nan：数据中是否出现Nan？检查bug？梯度过大（梯度裁剪）？
贝叶斯优化

2 平时训练有遇到梯度裁剪吗

3 怎么处理稀疏奖励（sparse reward）

奖励重塑：reward shaping
exploration调整
好奇心：好奇心驱动是使用内在奖励鼓励agent探索更陌生的状态，平衡探索与利用，本质上是提高了样本

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
强化学习算法面试问题 & 解答

1 调参技巧2 平时训练有遇到梯度裁剪嘛3 怎么处理稀疏奖励4 PPO算法的原理5 区分on-policy和off-policy6 是否了解A3C，IMPALA等强化学习训练框架7 怎样判断训练得到的policy是最优policy8 如何降低方差...
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。