强化学习笔记3 回报和价值函数

学习张斯俊和王树森两位大佬的专栏和课程后记的笔记。这篇笔记里面有一些个人理解,如有不对,欢迎大家指正。

  1. 回报return

上一篇说过奖励reward,奖励是指当前状态S下,选择动作A,环境将会反馈回奖励R,我们利用R作为智能体学习的引导,希望智能体能获得尽可能多的奖励。但是看待问题不能只顾当前所获得的利益,当前最优并不代表将来最优,比如马上期末考试了,我们以心情值作为奖励,目的是获得最大心情值。每天复习心情值-2,但是最后通过考试心情值+200;每天打游戏心情值+1,但是最后挂科心情值-100。长远来看,仅仅选择当前最优并不能获得胜利。

我们引出回报Ut:未来的累计奖励reward;T时刻的Return记作:Ut

Ut的定义:把从T时刻开始的奖励R全都加起来,加到游戏结束时的最后一个奖励

注:奖励Rt和Rt+1并不是同样的,就如立刻给你100块钱和十年后给你100块钱的差别。

  1. 折扣回报

由于未来的奖励没有现在的奖励值钱,强化学习中多采用折扣回报Discounted return

折扣率记作:γ (值界于0和1之间,如果未来和现在的权重一样,γ就等于1,如果未来的奖励不重要,γ就比较小)

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值