RL论文阅读3-PPO.2017

最新推荐文章于 2024-01-30 00:19:21 发布

SpadeA_Iverxin

最新推荐文章于 2024-01-30 00:19:21 发布

阅读量519

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/KuXiaoQuShiHuai/article/details/105999742

版权

论文阅读专栏收录该内容

32 篇文章 5 订阅

订阅专栏

PPO.2017

Tittle

在这里插入图片描述
source

总结

针对的问题

TRPO算法虽然取得较好成果，但是相对复杂，不兼容一些包含噪声或者参数共享的架构。
其实和TRPO解决的问题一样，是PG过程中步长的问题，是在TRPO的基础上做了些修改。

解决思路

文章提出了两种方法：

方法1 对于Loss函数，如果新旧策略相差很大，采取截断的方法。防止过分大的更新。
方法2 动态修改KL乘法系数。效果不如方法1

优点

保留了TRPO的一些优点同时，更加简单、通用并且有更好的采样复杂性

原理和idea

一般来说，PG算法的损失函数
$L^{PG}(\theta) = \hat{\Bbb{E}_t}[\log \pi_\theta(a_t|s_t)\hat A_t]$

A 为Advantage function

在TROP算法中，优化目标是在给定限制下最大化目标函数
$\max _\theta \hat{\Bbb{E}_t}[\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat A_t] \\ st. \hat{\Bbb{E}_t}[KL[\pi_{\theta_{old}}(\cdot|s_t), \pi_\theta(\cdot|s_t)]] \leq \delta$

TROP 实际上是把限制项放在原始作为批判项
$\max _\theta \hat{\Bbb{E}_t}[\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat A_t] + \beta ( KL[\pi_{\theta_{old}}(\cdot|s_t), \pi_\theta(\cdot|s_t)] )$
由于 $\beta$ 很难选择，所以就使用了限制项。

令 $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$

借助TROP的思想，那么
$L^{CPI}(\theta) = \hat{\Bbb{E}_t}[\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}\hat A_t] = \hat{\Bbb{E}_t}[r_t(\theta) \hat A_t]$

CPI : conservative policy iteration

如果没有TROP里的限制，最大化 $L^{CPI}$ 会导致策略更新过大，PPO的主要解决办法是直接clip，截断处,理
$L^{CLIP} (\theta) = \hat{\Bbb{E}_t}[\min (r_t(\theta) \hat A_t, \rm{clip}(r_t(\theta),1-\epsilon, 1+ \epsilon)\hat A_t )]$
这个的意思就是

$\hat A_t > 0$ : 整体为正，最大不能超过 $(1+\epsilon) \hat A_t$ ，最小值取决于 $r_t(\theta)\hat A_t$
$\hat A_t < 0$ ：整体为负，最大不能超过 $(1+\epsilon) \hat A_t$ ,最小值取决于 $r_t(\theta)\hat A_t$