Reward Shaping
Sparse Reward
- 许多场景中,大多数情况下并没有奖励,像是:
- 围棋: 平常落子没有奖励,只有棋局结束时才有奖励(输/赢)
- 机器人栓螺丝: 大多数动作都没有奖励,只有成功栓螺丝才有奖励
- 人类可以想办法设计额外的奖励来帮助学习,类似短期目标
Reward Shaping
- 游戏中的得分机制,只有杀死敌人或是被敌人杀死会影响分数
- 这表示大部分的行为没有奖励
- 可以设计短期目标,帮助机器学习:
- 移动、吃补给包、补包加分
- 扣血: 负奖励 (更容易死亡)
- 待在原地: 负奖励 (因为模型可能会避免移动,失去探索的机会)
- 活着: 负奖励 (因为模型可能会移动但避免战斗,失去探索的机会)
- 需要人类的领域知識介入,才能设计良好的奖励
Curiosity
- 当模型,看到有意义的新发现时,会获得奖励
- 有意义的新发现,是为了避免无用的新发现,让模型放弃探索
- 如何避免无意义的新发现,详情请看论文