【李弘毅深度强化学习】2，Proximal Policy Optimization (PPO)

最新推荐文章于 2022-10-31 17:42:11 发布

魏小侠

最新推荐文章于 2022-10-31 17:42:11 发布

阅读量610

点赞数

分类专栏：李弘毅深度强化学习笔记

本文链接：https://blog.csdn.net/weisiqi520/article/details/89342256

版权

李弘毅深度强化学习笔记专栏收录该内容

8 篇文章 1 订阅

订阅专栏

这一节主要讲解的是policy gradient从on policy 到off policy的转变

on policy：和环境交互的agent和要学习的agent是一个agent。举个例子就是阿光自己下棋，并且学习如何下棋。自己在探索，自己在学习。

off policy：和环境交互的agent和要学习的agent不是一个agent。举个例子就是阿光看佐为下棋，阿光在学习。就是说agent用别人的数据在进行学习。就像皇帝仅仅是在朝听政，各个大臣来向皇帝汇报情况。

平时我们自己使用的policy gradient都是on policy。就是使用一个θ来求得一大堆的数据，之后更新这个θ1，但是得到θ1之后之前的θ就是错的，所以要用θ1来重新获得一大堆数据，所以整个过程就是比较墨迹的。所以我们思考如何能不需要一直用θ来获取数据，于是就有了off policy的情况

我们的目标是使用固定的θΠ来获取数据，之后一直使用这些数据来更新θ。无论以后θ如何改变，一直都使用这些数据

这里我们讲一种重要性采样的方法（普适性的）：x服从p分布，我们计算f（x）的期望，但是p分布是很难计算（采样）的。于是我们引入一个比较容易计算（采样）的q分布，于是在分子分母同时乘以q（x），于是就变成了服从q分布的x来求期望，但是期望变成了最后的式子

我们研究了使用重要性采样实现on policy 到off policy的转换，我们知道期望值几乎是差不多的，但是我们不知道使用off policy以后方差的变化会是怎样。于是就计算了方差的公式，最后发现第二项对于方差的影响是很小的，但是第一项对于方差的影响还是有的。于是我们晓得，当使用重要性采样的时候，要保证只有p（x）和q（x）的区别不大，才会使得方差的区别很小。（如果从分布p到分布q的话，就要乘以p（x）/q（x））

我们使用一个直观一点的方式去理解这个问题，我们之前计算p分布下的期望，之后我们计算q分布下的期望。假设采样不是狠完全的情况下，计算p的时候大部分都是在y轴左侧，f（x）一般都是负数。但是计算q的时候，大部分都是在y轴的右侧，f（x）一般都是正值，但是p（x）/q（x）都是正数，所以如果采样不完全的时候，很可能计算的结果都是相反的。这就是p（x）和q（x）不一致所导致的问题，所以尽量p（x）需要和q（x）保持一致