强化学习—TPRO

TPRO

Trust Region Policy Optimization (TRPO) 是一种强化学习算法,旨在提高策略梯度方法的稳定性和效率。TRPO 通过限制每次策略更新的步长,确保策略的变化不会过大,从而避免学习过程中策略的崩溃或不稳定。

背景与动机

在策略梯度方法中,直接优化策略通常面临两个主要问题:

  1. 高方差:策略梯度的估计通常具有高方差,这会导致策略更新不稳定。
  2. 大步长更新的风险:如果每次策略更新的步长过大,新的策略可能偏离当前策略太远,从而导致策略性能急剧下降甚至崩溃。

TRPO 通过约束策略更新的步长,确保策略的逐步改善,避免出现上述问题。

核心思想

TRPO 的核心思想是,在优化策略时,限制新策略与旧策略之间的差异,使得新策略的变化在一个可信赖的范围内。这种方法的数学表述是通过限制策略分布的变化来实现的。

Kullback-Leibler (KL) 散度约束

TRPO 使用 KL 散度来度量新旧策略之间的差异。具体来说,TRPO 通过以下优化问题来更新策略:
maximize θ E s ∼ π old , a ∼ π old [ π θ ( a ∣ s ) π old ( a ∣ s ) A π old ( s , a ) ] subject to E s ∼ π old [ KL ( π old ( ⋅ ∣ s ) ∣ ∣ π θ ( ⋅ ∣ s ) ) ] ≤ δ 其中: \text{maximize}_{\theta} \quad \mathbb{E}_{s \sim \pi_{\text{old}}, a \sim \pi_{\text{old}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\text{old}}(a|s)} A_{\pi_{\text{old}}}(s, a) \right] \\ \text{subject to} \quad \mathbb{E}_{s \sim \pi_{\text{old}}} \left[ \text{KL} \left( \pi_{\text{old}}(\cdot|s) || \pi_{\theta}(\cdot|s) \right) \right] \leq \delta 其中: maximizeθEsπold,aπold[πold(as)πθ(as)Aπold(s,a)]subject toEsπold[KL(πold(s)∣∣πθ(s))]δ其中:

  • $ \theta $ 是策略的参数。
  • π old \pi_{\text{old}} πold 是旧策略, π θ \pi_{\theta} πθ 是新的策略。
  • A π old ( s , a ) A_{\pi_{\text{old}}}(s, a) Aπold(s,a) 是 Advantage Function,表示在旧策略下某个动作的优势。
  • δ \delta δ是一个超参数,用来控制策略更新时允许的最大策略变化。

这个约束确保每次策略更新时,新的策略不会偏离旧策略太远,避免了由于步长过大导致的性能急剧下降。

TRPO 的优化过程

  1. 计算 Advantage Function: 使用旧策略估计 Advantage Function,作为策略优化的依据。
  2. 解决优化问题: 通过约束 KL 散度的优化问题,求解出新的策略参数。
  3. 更新策略: 使用得到的新参数来更新策略。

TRPO 的优点

  • 稳定性:通过限制策略更新的步长,TRPO 能有效避免大幅度更新导致的策略崩溃,提高了策略优化的稳定性。
  • 更好的收敛性:TRPO 通过稳健的更新方式,在许多复杂的强化学习任务中表现出更好的收敛性。

TRPO 的缺点

  • 计算复杂度:TRPO 需要在每次更新中求解一个约束优化问题,计算复杂度较高。
  • 实现复杂:与其他简单的策略优化方法相比,TRPO 的实现更为复杂,调参难度较大。

总结

Trust Region Policy Optimization (TRPO) 是一种强化学习策略优化算法,通过限制新旧策略之间的变化范围,确保每次更新都在一个信任区域内,从而提高学习过程的稳定性和效率。虽然 TRPO 在实际应用中表现良好,但它的计算复杂度和实现难度相对较高。

如果你有任何进一步的问题或需要更多信息,欢迎继续讨论!

笔记

梯度上升算法

使用于所求函数比较简单。

请添加图片描述

随机梯度上升算法

使用于所求函数是一种期望,需要使用蒙特卡洛去近似。

请添加图片描述

置信域算法

置信域

请添加图片描述

更简单的L函数在N置信域内近似函数J,可以使用L替代J。

请添加图片描述

算法原理思想

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

强化学习中的置信域算法

所求函数J是状态价值函数V的期望。

请添加图片描述

公式推导,状态价值函数通过蒙特卡罗近似—>求策略函数 π \pi π 于动作价值函数Q的乘积连加—>加入 θ o l d \theta_{old} θold的期望。

请添加图片描述

请添加图片描述

置信域策略优化算法

TRPO优点:

  • 比策略梯度算法更鲁棒,策略梯度算法对超参数设定比较敏感,波动也大。
  • TRPO表现更稳定。
  • TRPO能训练效果更好的策略网络。

步骤:

  • 蒙特卡洛近似

θ \theta θ是优化变量,需要求 J ( θ ) J(\theta) J(θ)的最大值,期望是关于状态S和动作A的

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

  • 最大化

置信域条件目的是避免近似不好,让选取的新的 θ n e w \theta_{new} θnew也不会离 θ o l d \theta_{old} θold太远。

KL散度是衡量两个概率分布的距离。

请添加图片描述

总结:

步骤1-4是更新一轮参数的步骤属于外层循环;第4步求解一个优化问题,内层也有循环,有两个超参数(梯度下降的步长、置信域的半径)。
请添加图片描述

策略梯度方法和TRPO方法对比

请添加图片描述

  • 26
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值