策略迭代和价值迭代

最新推荐文章于 2024-05-27 12:25:56 发布

AutoGalaxy

最新推荐文章于 2024-05-27 12:25:56 发布

阅读量786

点赞数 3

分类专栏：深度强化学习文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43526137/article/details/126583624

版权

深度强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一. 策略迭代

（1）为V(s)， $\pi$ (s)，设初值。

（2）策略评估，改变V(s)。

利用贝尔曼期望方程。

$V_{\pi}(s)=\sum_{a} \pi(a|s) \sum_{s',r}p(s',r|s,a)(r+\gamma V_{\pi}(s'))$

利用上式，依次遍历价值表，直至收敛。

（3）策略改进，改变 $\pi(a|s)$

在（2）中 $V_{\pi}(s)$ 收敛之后，利用动作价值函数的定义式：

$q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)(r+\gamma V_{\pi}(s'))$

在每一个s处选使得 $q_{\pi}(s,a)$ 最大的 $a$ 构成 $q_{\pi}(s,a)$

若原 $\pi (s)$ 与新 $\pi (s)$ 不一致，则利用新 $\pi (s)$ 重新返回(2)中进行策略评估

二. 价值迭代（极端情况下的策略迭代，即策略评估只进行一次）

（1）给V(s)， $\pi$ (s)，设初值。

（2）利用 $q_{\pi}(s,a)=\sum_{s',r}p(s',r|s,a)(r+\gamma V_{\pi}(s'))$

通过贝尔曼最优性方程

$V_{k+1}(s)=\max_{a} q_{\pi}(s,a)=\max_{a} \sum_{s',r}p(s',r|s,a)(r+\gamma V_{k}(s'))$

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
策略迭代和价值迭代

深度强化学习
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。