Policy Gradient 学习笔记

 

1. 策略梯度的优化:

 

,最后这个Vt,有的书写的是Gt,还有就是每一个trajectory,可以用几次进行训练。有的地方说是每一个si,ai,R(i+1),都可以进行一次参数的更新,有的则说是整个trajectory只能用一次,R就是整个的Gt

 

2. 策略梯度定理是怎么推导成这个参数增量更新的式子?

 

 

答:

1.1。1

 

在Sutton书里面R是即时奖励Reward,G是一次长期回报Gain/Return。

G和V的关系是前者是样本值,后者是期望值。

 

1.2

 

2

 

 

南京大学俞扬博士:强化学习前沿(下)

表现函数J在连续空间中的定义为,

\LARGE J(\theta)=\int_{Traj} P_\theta(\tau)G(\tau)d\tau

(为何上式这样定义?因为实际上就是求基于该参数策略下回报的期望,即用回报期望来衡量策略的表现,J(\theta)=E[G(\tau)],回报期望越高,则该参数下的策略越好)

其中某一段序列记为\large \boldsymbol{\tau},该序列的时间步由 \large \boldsymbol{0}到 \large \boldsymbol{T},完成某一序列后得到的总奖励记为\LARGE G(\tau),出现该序列的概率记为\LARGE P_\theta(\tau),则发生该序列的概率为

\LARGE P_\theta (\tau)=p(s_0)\prod_{i=0}^{T}p(s_{i+1}|a_i,s_i)\pi_\theta(a_i|s_i) 

其中\LARGE p为状态转移概率(Transition Probability),\LARGE \pi _\theta为在\LARGE \theta参数策略下的动作选择概率

引用对数公式:\large \bigtriangledown _{\theta} y(\theta) = y(\theta) \bigtriangledown_\theta [log y(\theta) ]

对上式开导,有:

 

左边 

 

\LARGE \bigtriangledown{_\theta} [P{_\theta}(\tau )] =P_\theta(\tau)\bigtriangledown _\theta [log P_\theta(\tau)]

右边

\LARGE p(s_0)\prod_{i=0}^{T}p(s_{i+1}|s_{i},a_i)\bigtriangledown _\theta [\pi _\theta (a_i|s_i)]

\LARGE =p(s_0)\prod_{i=0}^{T}p(s_{i+1}|s_{i},a_i) \pi _\theta (a_i|s_i) \bigtriangledown _\theta [log\prod_{i=0}^{T}\pi _\theta (a_i|s_i)]

 

其中

 

\LARGE p(s_0)\prod_{i=0}^{T}p(s_{i+1}|s_{i},a_i) \pi _\theta (a_i|s_i) =P_\theta(\tau)

左右式约掉公因式,得

\LARGE \bigtriangledown _\theta [log P_\theta(\tau)] =\bigtriangledown _\theta [log\prod_{i=0}^{T}\pi _\theta (a_i|s_i)]

由对数性质可得

\LARGE \bigtriangledown _\theta [log P_\theta(\tau)] =\sum_{i=0}^{T} \bigtriangledown _\theta [log\pi _\theta (a_i|s_i)]

对表现函数开导并代入上式得

\LARGE \bigtriangledown _\theta [J(\theta)] =\int_{Traj} P_\theta(\tau)\bigtriangledown _\theta[logP_\theta(\tau)]R(\tau)d\tau

\LARGE =E[ \sum_{i=0}^{T} \bigtriangledown _\theta[log \pi_\theta(a_i|s_i)]R(\tau)]

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值