强化学习笔记

星星不想醒

已于 2024-06-05 20:57:16 修改

阅读量635

点赞数 25

文章标签：笔记

于 2024-06-05 20:07:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67197896/article/details/139476573

版权

本文中的部分图片和内容引用于写Bug那些事该大佬的博客，更为细致的讲解请查看该博客，链接如下：

强化学习入门这一篇就够了！！！万字长文-CSDN博客

一、对专业术语和基本概念的理解

1.1state action 和 agent

state可以理解成状态(环境状态)。在YouTube中刷视频时，我们可以认为state是用户在面对视频时，用户的信息（如用户的观看历史和用户的年龄性别等）和当前视频的信息（如视频所属类别和视频的创作者等）等。state也可以简单理解为当前的画面（当然这并不准确但是方便理解）。用户面对该视频所做的动作就是action。假设用户会做4个动作：点赞、点击不喜欢、评论和分享，那么用户就作为该例子的agent去做action。

1.2 policy-策略

policy的意思就是根据观测到的状态来进行决策，以控制agent的动作。在数学上policy函数π是这样定义的，这个policy函数π是个概率密度函数：

表示给定状态s做出动作a的概率密度。

比如在当前状态下，用户点赞的概率为0.6，评论的概率为0.2，收藏的概率为0.1，点击不喜欢的概率为0.1。4种动作都可能发生但是点赞的可能性最大。

动作具有随机性，每个动作的概率大小不一。agent有可能做其所存在的任何一种动作。

1.3 reward

agent做出一个动作，就会获得一个奖励。如若用户对视频点赞则reward = 500、用户对视频评论则reward = 200、用户对视频收藏则reward = 1000、用户对视频点击不喜欢则reward = -1000.

1.4 状态转移

假设用户在面对1号视频时为状态s，且用户采取了动作a，那么用户下滑得到的下一个视频就会发生变化，即状态变了。状态转移函数通常用p表示（论文中为T）

表示在当前状态s下进行动作a，下一个状态为s'的概率。

状态转移具有随机性，用户在 a 1号视频后得到的下一条视频有多种情况。通过状态转移函数得到概率，然后通过随机抽样得到下一个状态s‘。

1.5 Return

Return翻译为回报，又叫cumulative future reward（未来的累计奖励），我们把t时刻的return叫做Ut，其等于这一时刻的reward和其之后所有时刻的reward之和。但由于未来的reward重要性会越来越低，所以引入折扣率𝛾，这个值要介于0和1之间。（𝛾可以自己调整）

由于某时刻的reward取决于当时的状态所引发的动作以及下一状态，他们具有随机性，因此Ut也具有随机性。

1.6 action-value function 动作-价值函数 Qπ

动作-价值函数 Qπ是对Ut求期望得来的。表示在状态st下选择动作at获得的未来累计奖励的期望值。数值越大则说明agent在状态st下选择动作at越好。Qπ主要和policy函数π、状态s和动作a有关。

对π关于Qπ求最大化，得到函数Q* ，被称为Optimal action-value function(最优动作价值函数)。Q*可以得到st下为得到最高的未来累计奖励所应选择的动作at。

1.7 state-value function 状态-价值函数

状态价值函数Vπ是动作价值函数Qπ的期望（论文中为VπM）。表示在状态st下执行策略π得到的未来累积奖励的期望值。Vπ和policy函数π和状态s有关而和动作a无关。Vπ越大则说明当前状况越好。

二、对论文中各个函数公式的汇总

2.1论文4.1中的函数公式

2.2论文4.2中的函数公式

星星不想醒

关注

25
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

星星不想醒 CSDN认证博客专家 CSDN认证企业博客

码龄3年

17: 原创

104万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

427: 积分

177: 粉丝

248: 获赞

3: 评论

246: 收藏

私信

关注

热门文章

分类专栏

论文阅读 8篇

最新评论

[成功解决]tensorflow.python.framework.errors_impl.FailedPreconditionError: logs is not a directory
CSDN-Ada助手: 恭喜您成功解决了这个问题！持续创作博客对于技术人员来说是非常重要的，不仅能够帮助他人解决类似的困扰，也能够加深自己对问题的理解。建议在下一篇博客中可以分享一些关于如何更好地理解和调试TensorFlow报错信息的经验，这对读者来说也是非常有帮助的。期待您更多的创作！
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记
CSDN-Ada助手: 恭喜您发布了第四篇博客！看到您分享了关于《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记，对于研究领域的探索和分享，我深感钦佩。希望您能继续坚持创作，不断深入探索相关领域。下一步建议可以尝试结合实际案例或者应用场景，更具体地分析算法的应用和效果，以便更好地启发读者对于该领域的理解和应用。期待您更多精彩的创作，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0
程序员不想YY啊: 🌈精彩绝伦！您的文章给予了我新的启示和思考，拓宽了我对这个领域的认识，真的是一篇让人收益匪浅的好文，在这个信息爆炸的时代，有您这样用心创作的作者，真是令人欣慰，期待您的更多作品的出现，让我们共同进步，共同分享知识和智慧！
Inter校企合作淡水质量预测
CSDN-Ada助手: 恭喜您在博客上持续创作并分享有关Inter校企合作和淡水质量预测的内容。这些主题非常有价值，对读者来说也是非常有启发性的。希望您可以继续分享更多关于校企合作的案例和淡水质量预测的技术，或者可以尝试探讨一些相关的新颖想法，这样可以让读者有更多的收获。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
wps文档排版之公式的应用
CSDN-Ada助手: 恭喜你开始了博客创作之旅，文章标题已经很有吸引力了。公式排版对于学术论文和科研工作来说非常重要，期待你能分享更多关于wps文档排版的知识和经验。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。