强化学习 (三) 动态规划

rookie19_

于 2024-06-03 17:45:50 发布

阅读量407

点赞数 3

分类专栏：研究生文章标签：动态规划人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42100211/article/details/120646991

版权

研究生专栏收录该内容

17 篇文章 2 订阅

订阅专栏

文章目录

迭代法
- 网友认为的迭代策略评估与价值迭代的区别
迭代策略评估的进一步解释
附录

传统dp作用有限：

需要完备的环境模型
计算的复杂度极高

其它方法都是对dp的近似，近似的出发点是解决上面两个问题。
有一种说法是，强化学习其实就是拟动态规划。区别在于，动态规划假设所有参数可知。

迭代法

在上一章中，最优价值函数v*和最优动作函数q*可以直接求解，也可以用迭代法逼近。
在这里插入图片描述
策略改进过程的解释：
在每个状态s时，对每个可能的动作a，都计算一下采取这个动作后到达的下一个状态的期望价值。看看哪个动作可以到达的状态的期望价值函数最大，就选取这个动作。以此更新π(s)。
在这里插入图片描述
两者的区别，值函数的更新不一样。
前者算V，是为了评估此次策略的好坏，所做动作基于策略；
后者算V，是为了寻找最优价值函数。
前者在过程中会产生很多的策略，而后者只在价值函数收敛后才产生一个策略。

两种方法都被广泛使用，但哪种更优尚无定论。实际运用中，它们的收敛速度常常比理论最坏情况要快，尤其是使用了好的初始函数和策略的时候。

对于状态空间巨大的问题，比如双陆棋10^20，同步dp需要遍历整个状态空间，仅这一点都做不到。需要使用异步dp，状态的更新顺序是不确定的，因此各状态的更新次数有较大差距。但为了保证正确收敛，在某个节点之后，异步dp不能忽略任何一个状态。

网友认为的迭代策略评估与价值迭代的区别

1、策略迭代在价值评估阶段，每迭代一次都需要保证每个状态的值函数收敛，这是非常耗时的；而值迭代是采用动态规划的思想来收敛每个状态的值函数的。
3、策略迭代的收敛速度更快一些，在状态空间较小时，最好选用策略迭代方法。当状态空间较大时，值迭代的计算量更小一些。
4、侧重点不同：策略迭代最后是策略收敛，而值迭代是值函数收敛；收敛的方式也不同，策略迭代是argmax，而值函数是max。

第四点容易理解。
第三点，收敛速度快是指轮数少吗？如果只是轮数少，但每轮的工作很多，那有什么意义？不考虑并发的情况下，不应该永远选择总计算量最小的方法来节省时间吗？

迭代策略评估的进一步解释

general policy iteration 广义策略迭代
在这里插入图片描述

附录

不动点迭代
https://blog.csdn.net/jbb0523/article/details/52459797
在这里插入图片描述

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
强化学习 (三) 动态规划

书摘。
复制链接

扫一扫

专栏目录

rookie19_ CSDN认证博客专家 CSDN认证企业博客

码龄6年

109: 原创

5万+: 周排名

2万+: 总排名

12万+: 访问

: 等级

1755: 积分

238: 粉丝

317: 获赞

39: 评论

517: 收藏

私信

关注

热门文章

分类专栏

研究生 17篇
区块链 5篇
资源分享 1篇
开发 8篇
大数据 5篇
安全 15篇
求职 2篇
java 10篇
读书 15篇
安卓 4篇
物联网 11篇

最新评论

用DAG动态规划出一道逆向
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
利用python ast包，绘制python代码的调用关系图（可分析互相调用的多个py文件）
qq_39502383: 请问能根据节点类型找到方法的调用链，看起来这里面expression_statement 类型包含了方法调用，没有做区分
flink知识与理解
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
kafka知识与理解
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
leetcode解题思路(无代码) 归类汇总版，面试笔试经典例题
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。