强化学习：（三）策略学习

最新推荐文章于 2024-08-05 16:30:51 发布

故人西迁

最新推荐文章于 2024-08-05 16:30:51 发布

阅读量1.1k

点赞数 2

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sheagu/article/details/119274462

版权

强化学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

目录

一、策略学习
二、参考资料

一、策略学习

思路：用policy network来近似策略函数 $\pi$ ，用policy gradient算法来训练这个网络

函数近似的一般方法：线性函数，kernel函数，神经网络（就叫policy network了）

在这里插入图片描述

softmax是用来做映射的，因为我们需要各个动作的概率，所以要求输出都为正数，且加和为1，这里的softmax就是让输出具有这样的特征。

我们要找到一种评价方式，在这种评价方式下，当前的局面是最好的。因此，我们肯定需要状态价值函数：

在这里插入图片描述

目标函数： $J(\theta)=E_S[V(S;\theta)]$ ，策略学习就是改进θ，让 $J(\theta)$ 最大

在这里插入图片描述

策略梯度：如果a是离散的，那么
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TDc54M77-1627708988884)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210721162446955.png)]$

则有

在这里插入图片描述

其中 $Q_\pi(s,a)$ 是与 $\pi$ 有关的，而 $\pi$ 是与θ有关的，但为了便于理解，把它看作是无关的，拎到外面。

但实际上一般不用这种方法算策略梯度，而是作这个策略梯度的蒙特卡洛近似：

在这里插入图片描述

这里的log只是一种方法，莫烦的说法是用log的收敛性比较好。

现在得到了两种策略梯度的计算形式。

1）用第一种形式：
在这里插入图片描述

但因为是求和，所以只能用于动作空间是离散区间的情况

2）用第二种形式：适合动作空间是连续区间的情况（离散区间也可以用）

在这里插入图片描述

由于 $\hat a$ 是根据 $\pi$ 抽样得到的，所以 $g(\hat a,\theta)$ 是对策略梯度的无偏估计。

流程总结：

在这里插入图片描述

这里第3步的 $q_t$ 怎么算？

1）reinforce方法：用 $u_t$ 来近似代替 $U_t$

在这里插入图片描述

缺点：需要玩完一局，才能知道 $u_t$ ，才能更新一次

2）actor-critic方法：用神经网络做函数近似

以后再说。

二、参考资料

深度强化学习（全）

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
强化学习：（三）策略学习

思路：用policy network来近似策略函数 \piπ ，用policy gradient算法来训练这个网络
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

故人西迁 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。