强化学习:(三)策略学习

一、策略学习

思路:用policy network来近似策略函数 π \pi π​ ,用policy gradient算法来训练这个网络

函数近似的一般方法:线性函数,kernel函数,神经网络(就叫policy network了)

在这里插入图片描述

softmax是用来做映射的,因为我们需要各个动作的概率,所以要求输出都为正数,且加和为1,这里的softmax就是让输出具有这样的特征。

我们要找到一种评价方式,在这种评价方式下,当前的局面是最好的。因此,我们肯定需要状态价值函数:

在这里插入图片描述

目标函数: J ( θ ) = E S [ V ( S ; θ ) ] J(\theta)=E_S[V(S;\theta)] J(θ)=ES[V(S;θ)],策略学习就是改进θ,让 J ( θ ) J(\theta) J(θ)最大

在这里插入图片描述

策略梯度:如果a是离散的,那么
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TDc54M77-1627708988884)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20210721162446955.png)]

则有

在这里插入图片描述

其中 Q π ( s , a ) Q_\pi(s,a) Qπ(s,a)是与 π \pi π有关的,而 π \pi π是与θ有关的,但为了便于理解,把它看作是无关的,拎到外面。

但实际上一般不用这种方法算策略梯度,而是作这个策略梯度的蒙特卡洛近似:

在这里插入图片描述

这里的log只是一种方法,莫烦的说法是用log的收敛性比较好。

现在得到了两种策略梯度的计算形式。

1)用第一种形式:
在这里插入图片描述

但因为是求和,所以只能用于动作空间是离散区间的情况

2)用第二种形式:适合动作空间是连续区间的情况(离散区间也可以用)

在这里插入图片描述

由于 a ^ \hat a a^是根据 π \pi π抽样得到的,所以 g ( a ^ , θ ) g(\hat a,\theta) g(a^,θ)是对策略梯度的无偏估计。

流程总结:

在这里插入图片描述

这里第3步的 q t q_t qt怎么算?

1)reinforce方法:用 u t u_t ut来近似代替 U t U_t Ut

在这里插入图片描述

缺点:需要玩完一局,才能知道 u t u_t ut,才能更新一次

2)actor-critic方法:用神经网络做函数近似

以后再说。

二、参考资料

深度强化学习(全)

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

故人西迁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值