强化学习算法面试问题 & 解答

本文讨论了强化学习算法面试中常见的问题,包括调参技巧,如学习率、正则化和梯度裁剪的处理;应对稀疏奖励的方法,如奖励重塑和好奇心驱动;理解PPO算法、on-policy与off-policy的区别,以及A3C、IMPALA等训练框架。同时,提出了评估最优策略和降低训练方差的策略。
摘要由CSDN通过智能技术生成

1 你有什么调参技巧

  1. 使用论文中的参数作为初始参数,能取得不差的效果
  2. 控制变量法,按重要顺序进行调参:学习率 > 正则值 > dropout值
  3. 先在小样本集上调参,在放到大样本集上训练
  4. 关注超参数范围,例如:对数尺度上调学习率:1e-3,1e-2,1e-1,dropout:0.3,0.5,0.7
  5. 使用自适应优化器 / 学习率衰减:在测试集上准确度不再上升时 / 每多少周期后
  6. 隐藏层节点数:16 => 32 => 64 => 128
  7. 梯度裁剪
  8. L2正则:1.0,超过10较少见
  9. 关注正负样本比例,特别是分类任务的样本是否均匀
  10. 出现问题时,应考虑模型,数据,有无bug等因素
  11. 使用 random search,其优于 grid search
  12. 梯度归一化
  13. 出现Nan:数据中是否出现Nan?检查bug?梯度过大(梯度裁剪)?
  14. 贝叶斯优化

2 平时训练有遇到梯度裁剪吗

3 怎么处理稀疏奖励(sparse reward)

  1. 奖励重塑:reward shaping
  2. exploration调整
  3. 好奇心:好奇心驱动是使用内在奖励鼓励agent探索更陌生的状态,平衡探索与利用,本质上是提高了样本
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值