李宏毅深度强化学习(国语)课程(2018) 笔记(二)Proximal Policy Optimization(PPO)

   李宏毅深度强化学习(国语)课程(2018)_哔哩哔哩_bilibili

        on-policy:要learn的agent和环境互动的agent是同一个,即agent一边跟环境互动,一边学习;

        off-policy:要learn的agent和环境互动的agent是同一个,即在旁边看别人玩。

        on-policy→off-policy的目的是为提高数据利用效率

        on-policy→off-policy的公式推导:实现从p分布的policy中sample data→q分布的policy中sample data。

        实际操作中,p分布和q分布还是不能差太多,否则会导致一些问题出现。这是因为期望相等,方差Variance不一定相等,公式推导如下。

         如果sample的次数不够多,就会出现问题,如下图。

        由于跟环境做互动的是θ',而不是θ,因此,θ' sample出来的数据和θ没有关系。进而,可以实现θ'跟环境做互动产生一大堆数据以后,θ可以update很多次。Train到一定程度以后,θ'重新跟环境做互动。

        A^{^{\theta }}(s_{_{t}},a_{_{t}})是Accumulated Reward 减去 bias,用来估测动作的相对好坏,如果正就增加动作几率,如果负,就减少几率。

        这里有个假设,p_{\theta }(s_{_{t}})p_{​{\theta }'}(s_{t})分布是差不多的,可以抵消,另外的原因是因为算不出来的。

        前面的假设是p_{\theta }(s_{t}|a_{t})p_{​{\theta}' }(s_{t}|a_{t})不能差太多,否则结果会不准确。那么,如何避免差太多,就是PPO要做的事情,就是在training的时候,多加了一个constraint这个constraint就是θ和θ'这两个model 输出的action的KL散度,KL Divergence。TRPO是PPO的前身,constraint的位置不同是两者的区别。

        注意:PPO比TRPO在实操上容易多,效果差不多。KL Divergence并不是θ和θ'参数的距离,是行为上的距离,即给同一个state的时候,action几率分布之间的差距。

        PPO算法流程:

         PPO 2 公式复杂,但是操作起来简单。

式中, clip函数的含义

式中,min函数的含义 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Interesting AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值