1 你有什么调参技巧
- 使用论文中的参数作为初始参数,能取得不差的效果
- 控制变量法,按重要顺序进行调参:学习率 > 正则值 > dropout值
- 先在小样本集上调参,在放到大样本集上训练
- 关注超参数范围,例如:对数尺度上调学习率:1e-3,1e-2,1e-1,dropout:0.3,0.5,0.7
- 使用自适应优化器 / 学习率衰减:在测试集上准确度不再上升时 / 每多少周期后
- 隐藏层节点数:16 => 32 => 64 => 128
- 梯度裁剪
- L2正则:1.0,超过10较少见
- 关注正负样本比例,特别是分类任务的样本是否均匀
- 出现问题时,应考虑模型,数据,有无bug等因素
- 使用 random search,其优于 grid search
- 梯度归一化
- 出现Nan:数据中是否出现Nan?检查bug?梯度过大(梯度裁剪)?
- 贝叶斯优化
2 平时训练有遇到梯度裁剪吗
3 怎么处理稀疏奖励(sparse reward)
- 奖励重塑:reward shaping
- exploration调整
- 好奇心:好奇心驱动是使用内在奖励鼓励agent探索更陌生的状态,平衡探索与利用,本质上是提高了样本