动态规划算法（笔记）

2301_77120539

已于 2024-07-21 16:25:48 修改

阅读量702

点赞数 8

文章标签：算法动态规划笔记

于 2024-07-21 16:24:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77120539/article/details/140589401

版权

文章目录

策略迭代和价值迭代
策略迭代
- - 策略评估：
  - 策略提升
价值迭代
- - 贝尔曼最优方程

策略迭代和价值迭代

动态规划：分解目标问题为若干个子问题，由子问题的解得到目标问题的解。

基于动态规划的强化学习算法主要有两种：一是策略迭代（policy iteration），二是价值迭代（value iteration）。这两种算法要求事先知道环境的状态转移函数和奖励函数（白盒）。

策略迭代中的策略评估使用贝尔曼期望方程来得到一个策略的状态价值函数，这是一个动态规划的过程。

而价值迭代直接使用贝尔曼最优方程来进行动态规划，得到最终的最优状态价值。

策略迭代

策略评估：

在这里插入图片描述
根据动态规划的思想，可以把计算下一个可能状态的价值当成一个子问题，把计算当前状态的价值看作当前问题。
考虑所有的状态，就变成了用上一轮的状态价值函数来计算当前这一轮的状态价值函数。
在这里插入图片描述
该博客举的例子非常形象、便于理解：

策略提升

我们已经得到状态价值函数，策略提升即选择a，可最大化q(s,a)。

对当前的策略进行策略评估，得到其状态价值函数，然后根据该状态价值函数进行策略提升以得到一个更好的新策略，接着继续评估新策略、提升策略……直至最后收敛到最优策略。

价值迭代

只在策略评估中进行一轮价值更新，然后直接根据更新后的价值进行策略提升。价值迭代中不存在显式的策略，我们只维护一个状态价值函数。

贝尔曼最优方程

在这里插入图片描述
迭代更新后的贝尔曼最优方程：

最优策略选取最大化q(s,a)的动作。

关注

8
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
动态规划算法（笔记）

提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。