强化学习-赵世钰（四）：值迭代算法（Value iteration）、策略迭代算法（Policy iteration）、截断策略迭代算法（Truncated policy iteration）

u013250861

已于 2023-12-03 16:11:54 修改

阅读量1.2k

点赞数 1

文章标签：强化学习

于 2023-11-19 01:37:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/134486175

版权

本文详细介绍了值迭代算法和策略迭代算法，包括步骤、伪代码和案例分析，比较了两者在收敛性和效率上的特点。着重讨论了策略迭代中的Truncatedpolicyiteration及其收敛性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、值迭代算法（Value iteration algorithm）

1、值迭代算法详细步骤

2、值迭代算法伪代码

3、值迭代算法案例

通过两步就找到了最优策略。

二、策略迭代算法（Policy iteration algorithm）

1、策略迭代算法详细步骤

1.1 Step 1：Policy evaluation【目标：求解 v_π $v_{\pi_k }$ 】

其中 j 表示v的第 j 次迭代；

Policy evaluation 过程中 π_k(a|s) 是确定的；

1.2 Step 2：Policy improvement【目标：求解 π_{k+1} $\pi_{k+1}$ 】

2、策略迭代算法伪代码

3、策略迭代算法案例 01

4、策略迭代算法案例 02

随机初始化 $\pi_0$ 、 $v_{\pi_0^0}$

----> 通过Policy Evaluation步骤计算出 $v_{\pi_0}$ ；

----> 通过Policy Improvement，计算出 $\pi_1$

----> 通过Policy Evaluation步骤计算出 $v_{\pi_1}$ ；

----> 通过Policy Improvement，计算出 $\pi_2$

----> 通过Policy Evaluation步骤计算出 $v_{\pi_2}$ ；

....

----> 通过Policy Improvement，计算出 $\pi_{10}$

----> 通过Policy Evaluation步骤计算出 $v_{\pi_{10}}$ ；

5、策略迭代算法-现象

接近目标的状态先变好，远离目标的状态后变好。

三、Truncated policy iteration algorithm

1、值迭代（Value iteration）v.s. 策略迭代（Policy iteration）

2、Truncated policy iteration algorithm伪代码

3、Truncated policy iteration 收敛性

4、Truncated policy iteration 案例

5、值迭代（Value iteration）v.s. 策略迭代（Policy iteration）结论

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。