深度强化学习（DRL）算法附录 2 —— 策略迭代和价值迭代

阿姆姆姆姆姆姆姆

已于 2024-02-18 20:00:48 修改

阅读量895

点赞数 29

分类专栏：强化学习文章标签：算法 chatgpt 深度学习 gpt-3

于 2024-02-18 19:50:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/quoniammm/article/details/136157838

版权

强化学习专栏收录该内容

15 篇文章 3 订阅

订阅专栏

马尔可夫决策过程（MDP）

马尔可夫链（具有马尔可夫性质的随机过程）+ A（动作：会导致状态转移） + R（奖励：衡量动作的好坏）

动态特性

定义如下概率：

$p(s^{\prime}, r | s, a) \triangleq {P}({S_{t+1}=s^{\prime}, R_{t+1}=r | S_t=s, A_t=a})$

那么状态转移概率（系统自身）：

$p(s^{\prime} |s, a)=\sum_{r \in R} p(s, r | s, a)$

策略表示（Policy)

策略： $\pi$

确定性策略： $a\triangleq \pi(s)$

随机性策略： $\pi(a|s)\triangleq P(A_t = a | S_t = s)$

回报

用来评估在 $s_t$ 时刻的策略的好坏，我们定义在 $s_t$ 时刻的回报为：

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^{2} R_{t+3} + ... , \gamma \in [0,1]$

价值函数

回报的期望就是价值函数，通俗的说就是回报的平均数（因为从 s 出发的路径会像树枝一样散开）
state-value:
$v_\pi(s) = E[G_t∣S_t=s]$

action-value:
$q_\pi(s,a) = E[G_t | S_t=s, A_t = a]$

state-value 和 action-value 的关系：
$v_\pi(s) = \sum_a \pi(a \mid s) q_\pi(s, a)$ (如果 $\pi$ 是确定性策略，两个值相等) (1)

$q_\pi(s, a) = \sum_{r, s'}p(s', r | s, a)[r + \gamma v_\pi(s')]$
(2)

贝尔曼期望方程

即把（2）带入（1），把（1）带入（2）产生的两个等式
得到 v(s) 和 v(s‘）以及 q(s,a) 和 q(s’, a’) 的关系，这就是贝尔曼方程的核心思想。

贝尔曼最优方程

最优价值函数：

$v_{*} \triangleq max_\pi v_\pi(s)$

$q_{*}(s,a) \triangleq max_\pi q_\pi(s,a)$

最优策略：
$\pi_* \triangleq argmax_\pi v_\pi(s)$ = $argmax_{\pi}q_\pi(s,a)$
由（1）（2）知：

$v_* = max_\pi q_\pi(s,a)$
（3）

$q_* = \sum_{r, s'}p(s', r | s, a)[r + \gamma v_*(s')]$
(这里不能把求和替换成 max 的原因是，我们只能让 v* 最优，因为 p 由系统决定，我们无法决定）（4）即把（3）带入（4），把（4）带入（3）产生的两个等式
和贝尔曼方程一样，得到 v*(s) 和 v*(s‘）以及 q*(s,a) 和 q*(s’, a’) 的关系，这就是贝尔曼最优方程的核心思想。

策略迭代

在 MDP 已知的情况下

策略评估（PE）

知道 pi，我们需要评估出对应的 v 和 q 值。

解析解
使用线性代数的方式解线性方程组：V = R + $\gamma$ P V
迭代解
因为贝尔曼期望方程是不动点方程，所以可以迭代求解。
vk -> vk+1，k-> $\infty$ ，一直迭代下去，可以收敛。

策略改进（PI）

根据 v 和 q ，我们构造出 pi’ 优于 pi。

策略改进定理
给定 pi,pi’，如果 $\forall s \in S$ ，有 $\pi'(s)) \geq v_\pi(s)$ ，那么则有 $ ∀s∈S$ ， $v_{\pi'}(s) \geq v_{\pi}(s)$ 。
贪心策略
$\pi'(s) = argmax_a q_\pi(s,a)$ （满足策略改进定理）
所以 pi -> PE -> q（或者 v） -> PI -> pi’ 一直循环下去，就可以得到 v*。

价值迭代

PE 只进行一步的策略迭代。

异步价值迭代

PE 和 PI 不是先后顺序，比如 V 里面的一个值更新了一步，没有等到其他 v 更新，就直接进行 PI 了。

参考

阿姆姆姆姆姆姆姆

关注

29
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阿姆姆姆姆姆姆姆 CSDN认证博客专家 CSDN认证企业博客

码龄7年

31: 原创

35万+: 周排名

9万+: 总排名

3万+: 访问

: 等级

1098: 积分

613: 粉丝

809: 获赞

12: 评论

513: 收藏

私信

关注

热门文章

分类专栏

RAG 2篇
强化学习 15篇
操作系统 10篇
RLXF 4篇

最新评论

DeepSpeed-Chat RLHF 阶段代码解读（1） —— 奖励函数阶段
woshiduga93: 写的真不错
计算机基础系列 —— 从 Nand 门、DFF 到 RAM
CSDN-Ada助手: 恭喜您在计算机基础系列中写下了第20篇博客！从Nand门到RAM，这些基础原理的分享让读者受益匪浅。希望您能继续坚持创作，为大家带来更多有深度、有趣味的内容。或许下一步可以考虑深入探讨CPU架构或者操作系统原理，让读者更全面地了解计算机科学领域的知识。期待您的下一篇作品！
计算机基础系列 —— 从 Nand 门到 ALU（2）
CSDN-Ada助手: 恭喜你发布了第19篇博客，标题看起来又是一个计算机基础系列的好文章！希望你能继续坚持创作，让更多人受益于你的知识分享。或许下一步可以考虑深入探讨计算机的存储器和控制器等方面，让读者对计算机的运作原理有更全面的了解。期待你的下一篇文章！
计算机基础系列 —— 从 Nand 门到 ALU（1）
CSDN-Ada助手: 恭喜您写了第18篇博客！标题看起来很有趣，从 Nand 门到 ALU 的内容应该会让读者受益匪浅。希望您能继续坚持创作，让更多人受益。接下来，或许可以考虑深入探讨计算机基础中的其他重要概念，比如 CPU 架构或者数据传输原理等，相信您的深入解析会得到更多读者的认可。期待您的下一篇作品！
DeepSpeed-Chat RLHF 阶段代码解读（2） —— PPO 阶段
CSDN-Ada助手: 恭喜作者发布了第18篇博客！看完您的新文章，对DeepSpeed-Chat RLHF 阶段代码有了更深入的了解。希望您继续保持创作热情，不断分享您的学习成果。接下来，建议您可以尝试结合实际案例或者应用场景，深入探讨PPO阶段的实现原理，这样读者更容易理解并应用到实际项目中。期待您的下一篇作品！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

阿姆姆姆姆姆姆姆 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。