学习张斯俊和王树森两位大佬的专栏和课程后记的笔记。这篇笔记里面有一些个人理解,如有不对,欢迎大家指正。
回报return
上一篇说过奖励reward,奖励是指当前状态S下,选择动作A,环境将会反馈回奖励R,我们利用R作为智能体学习的引导,希望智能体能获得尽可能多的奖励。但是看待问题不能只顾当前所获得的利益,当前最优并不代表将来最优,比如马上期末考试了,我们以心情值作为奖励,目的是获得最大心情值。每天复习心情值-2,但是最后通过考试心情值+200;每天打游戏心情值+1,但是最后挂科心情值-100。长远来看,仅仅选择当前最优并不能获得胜利。
我们引出回报Ut:未来的累计奖励reward;T时刻的Return记作:Ut
![](https://img-blog.csdnimg.cn/img_convert/5cd9a01c781bf708472c1bcfb8339eab.png)
Ut的定义:把从T时刻开始的奖励R全都加起来,加到游戏结束时的最后一个奖励
注:奖励Rt和Rt+1并不是同样的,就如立刻给你100块钱和十年后给你100块钱的差别。
折扣回报
由于未来的奖励没有现在的奖励值钱,强化学习中多采用折扣回报Discounted return
折扣率记作:γ (值界于0和1之间,如果未来和现在的权重一样,γ就等于1,如果未来的奖励不重要,γ就比较小)