强化学习笔记3 回报和价值函数

Fitst_L

已于 2023-02-25 11:32:40 修改

阅读量1k

点赞数 3

分类专栏：强化学习文章标签：学习 Powered by 金山文档

于 2023-02-25 11:29:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50338046/article/details/129211564

版权

学习张斯俊和王树森两位大佬的专栏和课程后记的笔记。这篇笔记里面有一些个人理解，如有不对，欢迎大家指正。

回报return

上一篇说过奖励reward，奖励是指当前状态S下，选择动作A，环境将会反馈回奖励R，我们利用R作为智能体学习的引导，希望智能体能获得尽可能多的奖励。但是看待问题不能只顾当前所获得的利益，当前最优并不代表将来最优，比如马上期末考试了，我们以心情值作为奖励，目的是获得最大心情值。每天复习心情值-2，但是最后通过考试心情值+200；每天打游戏心情值+1，但是最后挂科心情值-100。长远来看，仅仅选择当前最优并不能获得胜利。

我们引出回报Ut：未来的累计奖励reward；T时刻的Return记作：Ut

Ut的定义：把从T时刻开始的奖励R全都加起来，加到游戏结束时的最后一个奖励

注：奖励Rt和Rt+1并不是同样的，就如立刻给你100块钱和十年后给你100块钱的差别。

折扣回报

由于未来的奖励没有现在的奖励值钱，强化学习中多采用折扣回报Discounted return

折扣率记作：γ （值界于0和1之间，如果未来和现在的权重一样，γ就等于1，如果未来的奖励不重要，γ就比较小）

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记3 回报和价值函数

强化学习笔记3 回报与价值函数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。