强化学习—TPRO
TPRO
Trust Region Policy Optimization (TRPO) 是一种强化学习算法,旨在提高策略梯度方法的稳定性和效率。TRPO 通过限制每次策略更新的步长,确保策略的变化不会过大,从而避免学习过程中策略的崩溃或不稳定。
背景与动机
在策略梯度方法中,直接优化策略通常面临两个主要问题:
- 高方差:策略梯度的估计通常具有高方差,这会导致策略更新不稳定。
- 大步长更新的风险:如果每次策略更新的步长过大,新的策略可能偏离当前策略太远,从而导致策略性能急剧下降甚至崩溃。
TRPO 通过约束策略更新的步长,确保策略的逐步改善,避免出现上述问题。
核心思想
TRPO 的核心思想是,在优化策略时,限制新策略与旧策略之间的差异,使得新策略的变化在一个可信赖的范围内。这种方法的数学表述是通过限制策略分布的变化来实现的。
Kullback-Leibler (KL) 散度约束
TRPO 使用 KL 散度来度量新旧策略之间的差异。具体来说,TRPO 通过以下优化问题来更新策略:
maximize
θ
E
s
∼
π
old
,
a
∼
π
old
[
π
θ
(
a
∣
s
)
π
old
(
a
∣
s
)
A
π
old
(
s
,
a
)
]
subject to
E
s
∼
π
old
[
KL
(
π
old
(
⋅
∣
s
)
∣
∣
π
θ
(
⋅
∣
s
)
)
]
≤
δ
其中:
\text{maximize}_{\theta} \quad \mathbb{E}_{s \sim \pi_{\text{old}}, a \sim \pi_{\text{old}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\text{old}}(a|s)} A_{\pi_{\text{old}}}(s, a) \right] \\ \text{subject to} \quad \mathbb{E}_{s \sim \pi_{\text{old}}} \left[ \text{KL} \left( \pi_{\text{old}}(\cdot|s) || \pi_{\theta}(\cdot|s) \right) \right] \leq \delta 其中:
maximizeθEs∼πold,a∼πold[πold(a∣s)πθ(a∣s)Aπold(s,a)]subject toEs∼πold[KL(πold(⋅∣s)∣∣πθ(⋅∣s))]≤δ其中:
- $ \theta $ 是策略的参数。
- π old \pi_{\text{old}} πold 是旧策略, π θ \pi_{\theta} πθ 是新的策略。
- A π old ( s , a ) A_{\pi_{\text{old}}}(s, a) Aπold(s,a) 是 Advantage Function,表示在旧策略下某个动作的优势。
- δ \delta δ是一个超参数,用来控制策略更新时允许的最大策略变化。
这个约束确保每次策略更新时,新的策略不会偏离旧策略太远,避免了由于步长过大导致的性能急剧下降。
TRPO 的优化过程
- 计算 Advantage Function: 使用旧策略估计 Advantage Function,作为策略优化的依据。
- 解决优化问题: 通过约束 KL 散度的优化问题,求解出新的策略参数。
- 更新策略: 使用得到的新参数来更新策略。
TRPO 的优点
- 稳定性:通过限制策略更新的步长,TRPO 能有效避免大幅度更新导致的策略崩溃,提高了策略优化的稳定性。
- 更好的收敛性:TRPO 通过稳健的更新方式,在许多复杂的强化学习任务中表现出更好的收敛性。
TRPO 的缺点
- 计算复杂度:TRPO 需要在每次更新中求解一个约束优化问题,计算复杂度较高。
- 实现复杂:与其他简单的策略优化方法相比,TRPO 的实现更为复杂,调参难度较大。
总结
Trust Region Policy Optimization (TRPO) 是一种强化学习策略优化算法,通过限制新旧策略之间的变化范围,确保每次更新都在一个信任区域内,从而提高学习过程的稳定性和效率。虽然 TRPO 在实际应用中表现良好,但它的计算复杂度和实现难度相对较高。
如果你有任何进一步的问题或需要更多信息,欢迎继续讨论!
笔记
梯度上升算法
使用于所求函数比较简单。
随机梯度上升算法
使用于所求函数是一种期望,需要使用蒙特卡洛去近似。
置信域算法
置信域
更简单的L函数在N置信域内近似函数J,可以使用L替代J。
算法原理思想
强化学习中的置信域算法
所求函数J是状态价值函数V的期望。
公式推导,状态价值函数通过蒙特卡罗近似—>求策略函数 π \pi π 于动作价值函数Q的乘积连加—>加入 θ o l d \theta_{old} θold的期望。
置信域策略优化算法
TRPO优点:
- 比策略梯度算法更鲁棒,策略梯度算法对超参数设定比较敏感,波动也大。
- TRPO表现更稳定。
- TRPO能训练效果更好的策略网络。
步骤:
- 蒙特卡洛近似
θ \theta θ是优化变量,需要求 J ( θ ) J(\theta) J(θ)的最大值,期望是关于状态S和动作A的
- 最大化
置信域条件目的是避免近似不好,让选取的新的 θ n e w \theta_{new} θnew也不会离 θ o l d \theta_{old} θold太远。
KL散度是衡量两个概率分布的距离。
总结:
步骤1-4是更新一轮参数的步骤属于外层循环;第4步求解一个优化问题,内层也有循环,有两个超参数(梯度下降的步长、置信域的半径)。