强化学习笔记（西湖大学课程）第四节

五山扫地老大爷

于 2024-09-05 23:50:15 发布

阅读量329

点赞数 3

文章标签：笔记 c++ 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80029803/article/details/141947459

版权

第三课贝尔曼最优公式

1 开头举例：如何改进策略

重点：两个概念一个公式：OSV和OP 最优状态值和最优策略贝尔曼最优公式

举例证明可知：求解出action value之后av最大的那种动作即是最优策略，即可以通过现有策略计算av之后得到修正策略（但此时的前提是其他sv已经是最优了）在不断迭代后可以得到最优策略

2 OP和最优公式推导

若存在一个策略，其所有的SV均优于其他策略的SV，则称其为最优策略

问题：

该最优策略是否存在（存在性）
该最优策略是否唯一（唯一性）
该最优策略是确定性的还是非确定性的（确定性）
如何得到

BOE：

定义上其实就是将贝尔曼公式的右侧嵌套一个最优化问题，对策略进行一个最优化处理而不仅仅是笼统表示为某一种策略

最右侧这部分av（qπ（s,a))啥问题都没有，和上面相比是原模原样地拿下来的，所做的唯一的处理就是求出一个最优的策略然后再代入

最优项的处理：可以发现在实际上，在q即av确定时，求解最优项即求解最大的AV

3 公式的求解以及最优性

一些概念

不动点（布劳威尔不动点）：有fx=x
收缩映射（李普希兹条件）：函数值差小于函数自变量的差

引入CMP

不动点存在
不动点唯一
用迭代计算出最后收敛的不动点（指数收敛）

BOE的求解

首先证明fv满足李普希兹条件

则可以推至此时的最优解v * 一定存在且具有唯一性，同时可以通过迭代算法来计算vk使之逼近v *

（和之前的迭代方式相同，找一个初始值，带进去右边之后不断迭代）

验证最优性

用最优策略去替换贝尔曼公式中的策略，得到的即是最优公式，贝尔曼最优公式是策略最优时的贝尔曼公式

4 最优策略的有意思的性质

决定因素

奖励r
系统模型
折扣率γ

系统的r线性变化后不会改变最优策略，即证明真正重要的的相对AV而不是绝对值
最短路径问题：最短路径天然由γ给出的衰减率决定，即在绕路的情况下，SV必然会出现衰减，因此SV的衰减不需要设计一个惩罚reward，绕路过程本身就是一种惩罚
最优解一定是唯一的，但是对应最优解的最优策略不一定是唯一的

五山扫地老大爷

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

五山扫地老大爷 CSDN认证博客专家 CSDN认证企业博客

码龄1年

9: 原创

23万+: 周排名

10万+: 总排名

4820: 访问

: 等级

177: 积分

60: 粉丝

81: 获赞

0: 评论

57: 收藏

私信

关注

热门文章

分类专栏

强化学习 5篇
C++小白 1篇

最新评论

C++小白的第一个程序：基于图形界面的扫雷
CSDN-Ada助手: 恭喜你开始博客创作！标题很吸引人，尤其是对于作为C++小白的你来说，能够写出一个基于图形界面的扫雷程序实属不易。你的博客内容一定会对其他C++初学者有所帮助。接下来，我建议你可以分享一下你在编写这个程序的过程中遇到的挑战以及如何解决它们的经验。这样不仅可以让读者更好地理解你的思路，也能让大家更深入地了解C++编程。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。