【强化学习入门笔记】 2.2 策略迭代和截断策略迭代

自动驾驶小白说

于 2024-12-15 20:23:18 发布

阅读量964

点赞数 23

分类专栏：强化学习入门文章标签：笔记算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2403_86993842/article/details/144491990

版权

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.

本节我们将介绍强化学习中的策略迭代求解方法.

2.2.1 算法步骤

跟值迭代类似, 策略迭代也是一个迭代的方法, 主要分为策略计算(PE)和策略提升(PI)两步.

2.2.1.1 策略计算(PE)

首先在当前策略 $\pi_k$ 的基础上, 计算状态值 $v_{\pi_k}$ , 实际就是求解贝尔曼公式:

$v_{\pi_k}=r_{\pi_k}+\gamma P_{\pi_k} v_{\pi_k},$

在1.4.4 贝尔曼公式求解中, 我们介绍了有两种求解方式:解析解和迭代求解. 但是解析解需要求逆矩阵, 所以常采用迭代求解的方式:

$v_{\pi_k}^{(j+1)}=r_{\pi_k}+\gamma P_{\pi_k} v_{\pi_k}^{(j)}, \quad j=0,1,2, \ldots$

它的展开形式为:

$v_{\pi_k}^{(j+1)}(s)=\sum_a \pi_k(a \mid s)\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_{\pi_k}^{(j)}\left(s^{\prime}\right)\right), \\ \quad s \in \mathcal{S}$

其中 $v_{\pi_k}^{(j)}$ 是上一轮迭代的状态值, 初值可以设置为任意值. 直到 $\left\|v_{\pi k}^{(j+1)}-v_{\pi k}^{(j)}\right\|<epsilon$ , 则认为已经收敛.

2.2.1.2 策略提升(PI)

有了状态值 $v_{\pi_k}$ 之后, 我们求解最优化问题, 得到新的最优策略 $\pi_{k+1}$ :

$\pi_{k+1}=\arg \max _\pi\left(r_\pi+\gamma P_\pi v_{\pi_k}\right) .$

$\pi_{k+1}$ 一定优于 $\pi_{k}$ , 详细证明可以前往书中查看. 展开形式写作:

$\pi_{k+1}(s)=\arg \max _\pi \sum_a \pi(a \mid s) \underbrace{\left(\sum_r p(r \mid s, a) r+\gamma \sum_{s^{\prime}} p\left(s^{\prime} \mid s, a\right) v_{\pi_k}\left(s^{\prime}\right)\right)}_{q_{\pi_k}(s, a)}, \\ s \in \mathcal{S},$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。