Policy Gradient 学习笔记

最新推荐文章于 2019-08-26 16:52:57 发布

Bourne_Boom

最新推荐文章于 2019-08-26 16:52:57 发布

阅读量144

点赞数 1

分类专栏：机器学习强化学习

本文链接：https://blog.csdn.net/linyijiong/article/details/82015142

版权

强化学习同时被 2 个专栏收录

21 篇文章 6 订阅

订阅专栏

机器学习

7 篇文章 0 订阅

订阅专栏

1. 策略梯度的优化：

，最后这个Vt，有的书写的是Gt，还有就是每一个trajectory，可以用几次进行训练。有的地方说是每一个si，ai，R(i+1)，都可以进行一次参数的更新，有的则说是整个trajectory只能用一次，R就是整个的Gt

2. 策略梯度定理是怎么推导成这个参数增量更新的式子？

答：

1.1。1

在Sutton书里面R是即时奖励Reward，G是一次长期回报Gain/Return。

G和V的关系是前者是样本值，后者是期望值。

1.2

南京大学俞扬博士：强化学习前沿（下）

表现函数J在连续空间中的定义为，

$\LARGE J(\theta)=\int_{Traj} P_\theta(\tau)G(\tau)d\tau$

（为何上式这样定义？因为实际上就是求基于该参数策略下回报的期望，即用回报期望来衡量策略的表现， $J(\theta)=E[G(\tau)]$ ，回报期望越高，则该参数下的策略越好）

其中某一段序列记为 $\large \boldsymbol{\tau}$ ，该序列的时间步由 $\large \boldsymbol{0}$ 到 $\large \boldsymbol{T}$ ，完成某一序列后得到的总奖励记为 $\LARGE G(\tau)$ ，出现该序列的概率记为 $\LARGE P_\theta(\tau)$ ，则发生该序列的概率为

$\LARGE P_\theta (\tau)=p(s_0)\prod_{i=0}^{T}p(s_{i+1}|a_i,s_i)\pi_\theta(a_i|s_i)$

其中 $\LARGE p$ 为状态转移概率（Transition Probability）， $\LARGE \pi _\theta$ 为在 $\LARGE \theta$ 参数策略下的动作选择概率

引用对数公式： $\large \bigtriangledown _{\theta} y(\theta) = y(\theta) \bigtriangledown_\theta [log y(\theta) ]$

对上式开导，有：

左边

$\LARGE \bigtriangledown{_\theta} [P{_\theta}(\tau )] =P_\theta(\tau)\bigtriangledown _\theta [log P_\theta(\tau)]$

右边

$\LARGE p(s_0)\prod_{i=0}^{T}p(s_{i+1}|s_{i},a_i)\bigtriangledown _\theta [\pi _\theta (a_i|s_i)]$

$\LARGE =p(s_0)\prod_{i=0}^{T}p(s_{i+1}|s_{i},a_i) \pi _\theta (a_i|s_i) \bigtriangledown _\theta [log\prod_{i=0}^{T}\pi _\theta (a_i|s_i)]$

其中

$\LARGE p(s_0)\prod_{i=0}^{T}p(s_{i+1}|s_{i},a_i) \pi _\theta (a_i|s_i) =P_\theta(\tau)$

左右式约掉公因式，得

$\LARGE \bigtriangledown _\theta [log P_\theta(\tau)] =\bigtriangledown _\theta [log\prod_{i=0}^{T}\pi _\theta (a_i|s_i)]$

由对数性质可得

$\LARGE \bigtriangledown _\theta [log P_\theta(\tau)] =\sum_{i=0}^{T} \bigtriangledown _\theta [log\pi _\theta (a_i|s_i)]$

对表现函数开导并代入上式得

$\LARGE \bigtriangledown _\theta [J(\theta)] =\int_{Traj} P_\theta(\tau)\bigtriangledown _\theta[logP_\theta(\tau)]R(\tau)d\tau$

$\LARGE =E[ \sum_{i=0}^{T} \bigtriangledown _\theta[log \pi_\theta(a_i|s_i)]R(\tau)]$

Bourne_Boom

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Policy Gradient 学习笔记

1.策略梯度的优化：，最后这个Vt，有的书写的是Gt，还有就是每一个trajectory，可以用几次进行训练。有的地方说是每一个si，ai，R(i+1)，都可以进行一次参数的更新，有的则说是整个trajectory只能用一次，R就是整个的Gt2.策略梯度定理是怎么推导成这个参数增量更新的式子？答：1.1。1在Sutton书里面...
复制链接

扫一扫

专栏目录