[課程筆記] 機器學習2021(李弘毅) L32.概述增強式學習(四)

Reward Shaping

Sparse Reward

  • 许多场景中,大多数情况下并没有奖励,像是:
    • 围棋: 平常落子没有奖励,只有棋局结束时才有奖励(输/赢)
    • 机器人栓螺丝: 大多数动作都没有奖励,只有成功栓螺丝才有奖励
  • 人类可以想办法设计额外的奖励来帮助学习,类似短期目标

Reward Shaping

  • 游戏中的得分机制,只有杀死敌人或是被敌人杀死会影响分数
  • 这表示大部分的行为没有奖励
  • 可以设计短期目标,帮助机器学习:
    • 移动、吃补给包、补包加分
    • 扣血: 负奖励 (更容易死亡)
    • 待在原地: 负奖励 (因为模型可能会避免移动,失去探索的机会)
    • 活着: 负奖励 (因为模型可能会移动但避免战斗,失去探索的机会)
  • 需要人类的领域知識介入,才能设计良好的奖励

Curiosity

  • 当模型,看到有意义的新发现时,会获得奖励
  • 有意义的新发现,是为了避免无用的新发现,让模型放弃探索
  • 如何避免无意义的新发现,详情请看论文

参考

  1. 李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (四)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值