强化学习笔记（西湖大学课程）第五节

五山扫地老大爷

于 2024-09-06 10:15:10 发布

阅读量389

点赞数 5

文章标签：笔记人工智能机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80029803/article/details/141952031

版权

第四课值迭代与策略迭代

1、值迭代算法

两个步骤

policy update PU 策略升级（处理策略的优化问题）
value update VU 数值升级（将VK（一个向量）带入新策略之中更新）

详细过程

已知系统模型，将VK带入之后得到有最大的qk，最优的策略即选取qk最大的action，其他的action都是0（如果有多个qk相同的action，则可以任意选取，在数学上都可以达到最优)，求qk,选qk最大的action即是最优策略
这里讲到的贪心算法是后面蒙特卡洛方法的基础，这里实现的一种全贪心的状态，即只关注最优动作，但这样会失去探索性，在后面用蒙特卡洛方法寻优的时候要做到探索性与最大利用性兼备

值更新：在求解出最优策略之后可以再次带值得到VK+1（其中的策略就是更新后的策略）

最终的结果，VK+1就是最大的qk

POLICY UPDATE:贪心策略

VALUE UPDATE:vk+1=max(qk)，sv更新为qk的最大值

步骤：对每一个SA求qπk，取得最大的来生成新策略，最大的同时也是SV的更新值，再由SV求qπk,进入循环 （在一个循环内即实现了SV的更新）

2、策略迭代算法

先随机取定一个策略，在通过计算SV判定策略的优劣性，之后用SV去更新策略，将更新后的策略带回到第一步之中继续计算SV，最终可以让策略不断趋近于最优

PE过程，如何求解SV
为什么PI中的新策略一定会优于原策略
为什么这个迭代算法可以趋近于最优策略
值迭代和策略迭代的关系是什么

在假设一个πK的情况下可以写出贝尔曼方程，最终同样是通过迭代的方式来计算SV

可以证明出SV在迭代的过程中是不断变好的，即新策略一定会优于原策略
可以证明VπK一定会收敛到V*，策略也会收敛到最优策略
策略迭代算法的收敛性是值迭代算法的收敛性推导出来的

算出来qπk之后，就和之前的内容一样

步骤：有贝尔曼方程解SV（任意给定初值，迭代计算），再有SV求qπk，得到之后根据最大的出策略，再有新策略产生贝尔曼方程，再解出SV （在无限循环之后才能逼近一个最优策略）

接近目标的状态会先变好，远离目标的状态会后变好

3、截断策略迭代算法

在第三步当中，v0到v1通过值迭代只需要一步运算，而策略迭代从V0到Vπ1需要无穷多步

则有可能存在一个中间步，将这一步所得到的值直接提取出来，直接放到进入下一个迭代过程，这里即是所谓的截断策略迭代

策略迭代只在理论上存在，所以从某种意义上而言，实际中的应用都是截断策略迭代而不存在所谓的绝对策略迭代

事先设定一个参数，只看是否执行够了自己想要的次数（即截断次数），执行到设定次数之后就结束

直观上解释：可以证明在截断过程中始终是增大状态，截断不会影响其收敛性

五山扫地老大爷

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

五山扫地老大爷 CSDN认证博客专家 CSDN认证企业博客

码龄1年

9: 原创

23万+: 周排名

10万+: 总排名

4820: 访问

: 等级

177: 积分

60: 粉丝

81: 获赞

0: 评论

57: 收藏

私信

关注

热门文章

分类专栏

强化学习 5篇
C++小白 1篇

最新评论

C++小白的第一个程序：基于图形界面的扫雷
CSDN-Ada助手: 恭喜你开始博客创作！标题很吸引人，尤其是对于作为C++小白的你来说，能够写出一个基于图形界面的扫雷程序实属不易。你的博客内容一定会对其他C++初学者有所帮助。接下来，我建议你可以分享一下你在编写这个程序的过程中遇到的挑战以及如何解决它们的经验。这样不仅可以让读者更好地理解你的思路，也能让大家更深入地了解C++编程。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。