TRPO

最新推荐文章于 2023-12-15 22:04:54 发布

蒸土豆的技术细节

最新推荐文章于 2023-12-15 22:04:54 发布

阅读量172

点赞数

本文链接：https://blog.csdn.net/qq_39006282/article/details/115305645

版权

直入主题。

PG模型和DQN模型都会产生一个现象，就是往后训练的时候模型会退化，或者说变差。而理论上最优值肯定是存在的，出现退化的原因是我们的估计和近似是有误差的,这些误差在后期会影响到模型的训练.
除此之外,有时候,不合适的步长也会让后期因为跨度太大而不好收敛.

理论依据

$\eta(\tilde{\pi}) = \eta(\pi) + E_{\tau\sim\tilde{\pi}}(\sum_{t=0}^{\infty}\gamma^tA_\pi(s_t,a_t)) \tag{1}$ $Q_\pi(s,a) - V_\pi(s)\tag{2}$

$\eta$ 是计算策略价值的函数.
$\tilde{\pi}$ 和 $\pi$ 分别是后一时刻和当前时刻的策略.
$\tau$ 是一串由策略 $\tilde\pi$ 生成的 $s_1,a_1,s_2......)$ 序列
$E$ 是有策略 $\tilde\pi$ 参与的期望,以该策略生成的序列 $\tau$ 会参与到具体的期望计算中.
$\gamma$ 是超参数.期望 $E$ 计算的是关于整个 $\tau$ 序列的期望,很有可能会发散.添加 $\tau$ 会让后面的 $A (s, t)$ 变小,达到收敛的目的.
$A (s, a)$ 是关于 $s 和 a$ 的函数,如公式所示,是Q与V的差.
$Q$ 是度量在已知某一时刻的 $s 和 a$ 时,对未来价值的一个估计,称为Q值.
$V$ 是度量在已知某一时刻的 $s$ 时,对未来Q值期望的估计.

对于6和7,有必要用公式写出 $Q 和 V$ 的关系: $V(s)=\sum_a P(a)Q(s,a)=E_{a\sim某一分布}[Q(s,a)]$ 所以对于 $A (s, a)$ 它计算的是未来的某一种动作下,与未来均值的差.
也就是说,如果A(s,a)比0大,那这个a选的就比平均值好.

这个链接给出了式(1)的左右相等,以证明式子不是扯淡来的

试想,如果每次更新时,式(1)中的期望都是正数,那么策略期望就会一直上升.

寻找计算方法

如果我们想找到正数的 $E$ 就要找 $\tau$ ,而 $\tau$ 从 $\tilde\pi$ 生成而来, $\tilde\pi$ 的本质又是一个由参数 $\theta$ 定义的神经网络.
为了追根溯源,我们需要把 $E$ 掰碎.

第一层,按s展开.在t已经掰开的情况下,每个t对每种s都有可能.
$E_{\tau\sim\tilde{\pi}}(\sum_{t=0}^{\infty}\gamma^tA_\pi(s_t,a_t)) =\sum_{t=0}^{\infty}\sum_sP(s|\tilde\pi)\gamma^tA_\pi(s,a_t)\tag{3}$
第二层,按a展开.在t和s掰开的情况下,每个s对每个a都有可能.
$(3)=\sum_{t=0}^{\infty}\sum_sP(s|\tilde\pi)\sum_a\tilde\pi(a|s)\gamma^tA_\pi(s,a)\tag{4}$ 注意累加的层次.
这里的 $P$ 和策略 $\tilde\pi$ 都是加和为1的概率分布.

接下来我会把(4)变换的"简单"一点
$(4)=\sum_s\rho_{\tilde\pi}(s)\sum_a\tilde\pi(a|s)\gamma^tA_\pi(s,a)$ $\rho_{\tilde\pi}(s)=\sum_{t=0}^\infty\gamma^tP(s_t=s|\tilde\pi)$
为啥单单搞个 $\rho$ 出来呢?因为我把它看作后面那一坨数的概率分布.
也就是说,我希望 $\sum_s\rho_{\tilde\pi}(s)=1$
但很明显,希望是错的.如果你算过,会发现 $\sum_s\rho_{\tilde\pi}(s)=\frac{1}{1-\gamma}$ ,这是个好消息,因为如果把 $\rho$ 放大 $1-\gamma$ 倍,那它就可以看作分布了.
$(4)=\frac{1}{1-\gamma}\sum_s(1-\gamma)\rho_{\tilde\pi}(s)\sum_a\tilde\pi(a|s)A_\pi(s,a)\\= \frac{1}{1-\gamma}E_{s\sim(1-\gamma)\rho_{\tilde\pi}}(\sum_a\tilde\pi(a|s)A_\pi(s,a))\tag{5}$
后面的策略 $\tilde\pi$ 也可以看作是一个分布,也可以写成期望形式.
但是稍等,从这里开始我们要解决第一个产生退化的原因: 估计和近似的误差.

1.估计和近似造成的误差,产生了退化

现在有 $\eta(\tilde\pi) = \eta(\pi) + 式(5)$
如果要确定地提高 $\eta(\tilde\pi)$ ,我们可以选择一个牛逼的 $\tilde\pi$ ,对每个s,让式(5)中的 $\sum_a\tilde\pi(a|s)A_\pi(s,a)\geq0$ 这个牛逼的 $\tilde\pi$ 也很好找.把 $A (s, a)$ 打开,有
$\sum_a\tilde\pi(a|s)Q(s,a)-\sum_a\pi(a|s)Q(s,a)$ 总会有一个策略, $s = s^{'}$ 时有 $a'=argmax_aQ(s',a)$ ,该策略让 $\pi'(s',a')=1$ .这个策略总会比原策略好.
但是但是但是,由于我们的近似和估计总是与客观存在误差(因为我们的训练数据是抽样的),所以总会让模型在客观上的最优策略,数值上反倒不如次一点的策略,更不用说每次采样都阴晴不定了.

如何减小误差?

我们只能减小误差,不能消除误差,因为采样就会造成误差.
式子中,我们需要在 $\tilde\pi和\pi$ 两个策略上采样,才能计算式子.
两个采样,那就是错上加错.
能否在一个上面采样?

替换1

在所有off-policy模型上,由于时间差的存在,必须用重要性采样来纠偏.
我们虽然不是出于时间差的目的,但同样可以利用重要性采样的特点,把采样任务从一个分布交给另一个分布.
$\tilde\pi(a|s) = \pi(a|s)\frac{\tilde\pi(a|s)}{\pi(a|s)}\tag{6}$
式(6)替换式(5)的对应位置,除了采样对象变了,其他什么都没变.

替换2

$\rho$ 基于 $\tilde\pi$ 获得s的分布,我们没有办法.
但我们可以取个巧.我们知道,梯度下降中,只要步子够小,那前后的参数变化就没多大,进而可知s的分布也没多大变化.
那是否能尝试也用 $\pi$ 替换呢?
这个做法虽然有些霸道,结果也无法量化,但单从实验结果看,做法是可取的.
(有时候看到这种做法,真是会产生对研究的无力感.)

至此,在采样这块,算是统一了.

补充说明

我们对原来的 $\eta(\tilde\pi)$ 做了很多变换和替代.我把变换替代后的公式记为 $L_\pi(\tilde\pi)$
对二者在 $\pi$ 上一阶求导,是相等的.
所以如果 $\tilde\pi$ 对 $L$ 能优化,那对 $\eta$ 一样也优化.

新的问题:步长

有一个公式描述了二者的关系.
该公式的原型来自于2002年的论文:Approximately Optimal Approximate Reinforcement Leraning
被作者用KL散度替换了一个 $\alpha$ 参数,理由是原参数太笨重了。变成了下面这样.
$\eta(\tilde\pi) \geq L_\pi(\tilde\pi) - CD^{max}_{KL}(\pi,\tilde\pi)$ $C=\frac{2\varepsilon\gamma}{(1-\gamma)^2}$

替换2告诉我们,如果你步长太大,破坏了参数变化不大的假设,模型就失去意义了.
该公式告诉我们,如果你步长太大,会导致KL太大, $\eta$ 的下界会低很多,也就是说即使 $L$ 上升， $\eta$ 也可能会下降。所以让 $K L$ 尽可能小，从而让下界缓步上升，是极其必要的。
对于该公式的推导，比较长，看原文去吧。

蒸土豆的技术细节

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TRPO

直入主题。PG模型和DQN模型都会产生一个现象，就是往后训练的时候模型会退化，或者说变差。而理论上最优值肯定是存在的，梯度下降告诉我们，如果你的步长太大，容易迈过最低点，跑到比自身更高的位置。也就是说，TRPO认为，模型退化的原因是固定的步长对于后期太大了。或许我们可以随着时间的推移，慢慢降低步长，但硬规定终究差点意思。如果能找到一个必定能优化模型的步长范围，那就完美了。理论依据η(π~)=η(π)+Eτ∼π~(∑t=0∞γtAπ(st,at))(1)\eta(\tilde{\pi}) = \et
复制链接

扫一扫