强化学习-TRPO算法详解

Rsbs

已于 2025-04-12 14:25:35 修改

阅读量960

点赞数 12

文章标签：算法人工智能机器学习学习

于 2025-04-12 14:19:39 首次发布

本文链接：https://blog.csdn.net/Rsbstep/article/details/147158993

版权

TRPO（Trust Region Policy Optimization）算法详解

TRPO（信任区域策略优化）是一种基于策略梯度的强化学习算法，由John Schulman等人在2015年提出。其核心思想是通过限制策略更新的幅度，确保新策略的性能不会显著下降，从而提升训练稳定性。以下是TRPO的详细介绍：

1. 背景与动机

传统策略梯度的问题：策略梯度方法直接优化策略参数，但步长选择敏感。过大的更新可能导致策略性能骤降，而过小的步长则收敛缓慢。
信任区域的引入：TRPO提出在策略更新时定义一个“信任区域”，确保新策略与旧策略的差异在可控范围内。数学上通过KL散度约束实现。

2. 策略优化的基本目标

在强化学习中，策略优化的目标是找到一个策略 $\pi_\theta(a|s)$ ，使得期望累积回报最大化：
$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t r(s_t, a_t) \right],$
其中 $\tau$ 是轨迹， $\gamma$ 是折扣因子。直接优化 $J(\theta)$ 的梯度为：
$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot Q^{\pi_\theta}(s_t, a_t) \right]$
推导过程如下：

从定义出发
- 首先，目标函数 $J(\theta)=\mathbb{E}_{\tau\sim\pi_{\theta}}[\sum_{t = 0}^{\infty}\gamma^{t}r_{t}]$ ，这里 $\tau=(s_{0},a_{0},r_{0},s_{1},a_{1},r_{1},\cdots)$ 是一个轨迹， $\gamma$ 是折扣因子。期望是对所有可能的轨迹 $\tau$ 按照策略 $\pi_{\theta}$ 进行计算的。
- 根据期望的定义， $J(\theta)=\int_{\tau}\pi_{\theta}(\tau)(\sum_{t = 0}^{\infty}\gamma^{t}r_{t})d\tau$ ，其中 $\pi_{\theta}(\tau)=\prod_{t = 0}^{\infty}\pi_{\theta}(a_{t}|s_{t})$ 是轨迹 $\tau$ 出现的概率。
应用对数求导技巧
- 为了求 $J(\theta)$ 关于 $\theta$ 的梯度，我们对 $J(\theta)$ 使用对数求导技巧。
  - 设 $p(\theta)=\pi_{\theta}(\tau)$ 和 $g(\theta)=\sum_{t = 0}^{\infty}\gamma^{t}r_{t}$
  - 那么 $J(\theta)=\mathbb{E}[g(\theta)]=\int p(\theta)g(\theta)d\theta$ 。
- 根据对数求导公式 $\nabla_{\theta}\log p(\theta)=\frac{\nabla_{\theta}p(\theta)}{p(\theta)}$ ，对 $J(\theta)$ 求导可得：
  $\begin{align*} \nabla_{\theta}J(\theta) &= \int\nabla_{\theta}\left[\pi_{\theta}(\tau)\left(\sum_{t = 0}^{\infty}\gamma^{t}r_{t}\right)\right]d\tau \\ &= \int\left[\nabla_{\theta}\pi_{\theta}(\tau)\left(\sum_{t = 0}^{\infty}\gamma^{t}r_{t}\right) + \pi_{\theta}(\tau)\nabla_{\theta}\left(\sum_{t = 0}^{\infty}\gamma^{t}r_{t}\right)\right]d\tau \end{align*}$
- 注意到 $\nabla_{\theta}(\sum_{t = 0}^{\infty}\gamma^{t}r_{t}) = 0$ ，因为 $r_{t}$ 不依赖于 $\theta$ 。
- 对于 $\nabla_{\theta}\pi_{\theta}(\tau)$ ，由于 $\pi_{\theta}(\tau)=\prod_{t = 0}^{\infty}\pi_{\theta}(a_{t}|s_{t})$ ，根据复合函数求导法则和对数求导技巧， $\nabla_{\theta}\pi_{\theta}(\tau)=\pi_{\theta}(\tau)\sum_{t = 0}^{\infty}\frac{\nabla_{\theta}\pi_{\theta}(a_{t}|s_{t})}{\pi_{\theta}(a_{t}|s_{t})}$ 即 $\nabla_{\theta}\pi_{\theta}(\tau)=\pi_{\theta}(\tau)\sum_{t = 0}^{\infty}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})$
引入动作 - 价值函数 $Q^{\pi}(s_{t},a_{t})$
- 把 $\nabla_{\theta}\pi_{\theta}(\tau)=\pi_{\theta}(\tau)\sum_{t = 0}^{\infty}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})$ 代入 $\nabla_{\theta}J(\theta)$ 的表达式中，得到：
  $\nabla_{\theta}J(\theta)=\int\pi_{\theta}(\tau)\sum_{t = 0}^{\infty}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})(\sum_{t = 0}^{\infty}\gamma^{t}r_{t})d\tau$
- 注意到 $\sum_{t = 0}^{\infty}\gamma^{t}r_{t}$ 在轨迹 $\tau$ 中的期望可以表示为动作 - 价值函数 $Q^{\pi}(s_{t},a_{t})$ 。
- 根据动作 - 价值函数的定义 $Q^{\pi}(s_{t},a_{t})=\mathbb{E}_{\pi_{\theta}}[\sum_{k = t}^{\infty}\gamma^{k - t}r_{k}|s_{t},a_{t}]$ ，所以 $\nabla_{\theta}J(\theta)=\mathbb{E}_{\pi_{\theta}}[\sum_{t = 0}^{\infty}\gamma^{t}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})Q^{\pi}(s_{t},a_{t})]$ 这样就完成了梯度表达式的推导。

但直接使用策略梯度方法容易因步长过大导致策略性能崩溃。

3. TRPO 的核心思想：替代目标函数

TRPO 通过限制新旧策略的差异，构造一个替代目标函数（Surrogate Objective），确保每次更新后策略性能单调提升。具体步骤如下：

3.1 新旧策略的期望回报关系

新策略 $\pi_\theta$ 的期望回报可表示为旧策略 $\pi_{\theta_{\text{old}}}$ 的期望回报加上一个修正项：
$J(\theta) = J(\theta_{\text{old}}) + \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^\infty \gamma^t A^{\pi_{\theta_{\text{old}}}}(s_t, a_t) \right],$

其中 $A^{\pi_{\theta_{\text{old}}}}(s_t, a_t)$ 是优势函数，表示在状态 $s_t$ 下选择动作 $a_t$ 相对于平均策略的优势。
$A^{\pi_{\theta_{\text{old}}}}(s_t, a_t)=Q^{\pi_{\theta_{\text{old}}}}(s,a)-V^{\pi_{\theta_{\text{old}}}}(s)$ 。其中 $V^{\pi_{\theta_{\text{old}}}}(s)=\mathbb{E}_{a\sim\pi(s)}[Q^{\pi_{\theta_{\text{old}}}}(s,a)]$ 是价值函数。

3.2 重要性采样转换分布

因为在实际应用中，新策略 $\pi_{\theta}$ 的轨迹难以直接采样，所以需要将其转换为一种可以利用旧策略采样数据来计算的形式。
TRPO 使用重要性采样（Importance Sampling）将期望转换为旧策略的分布：

对于 $\mathbb{E}_{\tau\sim\pi_{\theta}}\left[\sum_{t = 0}^{\infty}\gamma^{t}A^{\pi_{\theta_{old}}}(s_t,a_t)\right]$ ，可以将其看作是多个时间步的 $\mathbb{E}_{\tau\sim\pi_{\theta}}\left[A^{\pi_{\theta_{old}}}(s_t,a_t)\right]$ 的折扣求和。
$\mathbb{E}_{\tau \sim \pi_\theta} \left[ A^{\pi_{\theta_{\text{old}}}}(s_t, a_t) \right] = \mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}, a \sim \pi_{\theta_{\text{old}}}} \left[ \frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} A^{\pi_{\theta_{\text{old}}}}(s, a) \right],$
公式推导：

在强化学习的轨迹期望计算中，我们要计算 $\mathbb{E}_{\tau \sim \pi_\theta} \left[ A^{\pi_{\theta_{\text{old}}}}(s_t, a_t) \right]$ 。
设轨迹 $\tau=(s_0,a_0,r_0,s_1,a_1,r_1,\cdots)$ ，对于新策略 $\pi_{\theta}$ 下的状态 - 动作对 $(s, a)$ 的概率分布为 $\pi_{\theta}(a|s)\rho_{\theta}(s)$ ，这里 $\rho_{\theta}(s)$ 是新策略 $\pi_{\theta}$ 下的状态分布。
对于旧策略 $\pi_{\theta_{old}}$ 下的状态 - 动作对 $(s, a)$ 的概率分布为 $\pi_{\theta_{old}}(a|s)\rho_{\theta_{old}}(s)$ 。
我们把 $\mathbb{E}_{\tau \sim \pi_\theta} \left[ A^{\pi_{\theta_{\text{old}}}}(s_t, a_t) \right]$ 看作是在新策略 $\pi_{\theta}$ 下状态 - 动作对 $(s, a)$ 分布下优势函数 $A^{\pi_{\theta_{old}}}(s,a)$ 的期望，即 $\mathbb{E}_{(s,a)\sim\pi_{\theta}(a|s)\rho_{\theta}(s)} \left[ A^{\pi_{\theta_{\text{old}}}}(s, a) \right]$ 。
根据重要性采样原理，设 $p(s,a)=\pi_{\theta}(a|s)\rho_{\theta}(s)$ （新策略下的状态 - 动作联合分布）， $q(s,a)=\pi_{\theta_{old}}(a|s)\rho_{\theta_{old}}(s)$ （旧策略下的状态 - 动作联合分布）， $f(s,a)=A^{\pi_{\theta_{old}}}(s,a)$ （优势函数）。
那么 $\mathbb{E}_{(s,a)\sim p} \left[ A^{\pi_{\theta_{old}}}(s, a) \right]=\mathbb{E}_{(s,a)\sim q}[\frac{p(s,a)}{q(s,a)}A^{\pi_{\theta_{old}}}(s,a)]$ 。
计算 $\frac{p(s,a)}{q(s,a)}$ ： $\frac{p(s,a)}{q(s,a)}=\frac{\pi_{\theta}(a|s)\rho_{\theta}(s)}{\pi_{\theta_{old}}(a|s)\rho_{\theta_{old}}(s)}$ 。
- 假设状态分布的变化相对缓慢（这是一个常见的假设），即 $\rho_{\theta}(s)\approx\rho_{\theta_{old}}(s)$ ，那么 $\frac{p(s,a)}{q(s,a)}\approx\frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)}$ 。
- 所以 $\mathbb{E}_{\tau \sim \pi_\theta} \left[ A^{\pi_{\theta_{\text{old}}}}(s_t, a_t) \right]=\mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}, a \sim \pi_{\theta_{\text{old}}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)} A^{\pi_{\theta_{\text{old}}}}(s, a) \right]$ 。
这就完成了公式的推导。

3.3 替代目标函数的定义

忽略折扣因子 $\gamma^t$ 的复杂影响（实际中通过加权平均处理），TRPO 的替代目标函数定义为：
$L(\theta) = \mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}, a \sim \pi_{\theta_{\text{old}}}} \left[ \frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} A^{\pi_{\theta_{\text{old}}}}(s, a) \right].$
优化 $L(\theta)$ 相当于最大化新策略相对于旧策略的期望优势。

4. 约束条件的引入：信任区域

直接对 $L(\theta)$ 进行无约束的优化可能会带来一些问题。当我们在更新策略参数 $\theta$ 时，如果步长过大，新策略 $\pi_{\theta}$ 可能会与旧策略 $\pi_{\theta_{old}}$ 产生较大的差异。这种差异可能会导致基于旧策略收集的数据不再适用于新策略，从而使得优化过程不稳定，甚至可能会使策略的性能下降。

TRPO 通过KL散度约束限制新旧策略的差异，确保更新在“信任区域”内。

4.1. KL 散度的概念

KL 散度（Kullback - Leibler divergence），也称为相对熵，是一种衡量两个概率分布之间差异的指标。
对于两个离散概率分布 $p (x)$ 和 $q (x)$ ，KL 散度定义为：
$D_{\text{KL}}(p \| q)=\sum_{x} p(x) \log \frac{p(x)}{q(x)}$
它具有以下性质：

$D_{\text{KL}}(p \| q) \geq 0$ ，当且仅当 $p (x) = q (x)$ 对于所有的 x 都成立时，等号成立。
这意味着 KL 散度可以用来衡量两个分布的相似程度，值越小表示两个分布越接近。 $D_{\text{KL}}(p \| q)$ 不是对称的，即 $D_{\text{KL}}(p \| q)\neq D_{\text{KL}}(q \| p)$ 。

4.2. KL 散度约束在 TRPO 中的作用

在 TRPO 中，我们使用 KL 散度来衡量新旧策略 $\pi_{\theta_{old}}$ 和 $\pi_{\theta}$ 之间的差异。
具体来说，对于每个状态 s，我们计算在该状态下旧策略 $\pi_{\theta_{old}}(\cdot|s)$ 和新策略 $\pi_{\theta}(\cdot|s)$ 之间的 KL 散度 $D_{\text{KL}}(\pi_{\theta_{old}}(\cdot|s) \| \pi_{\theta}(\cdot|s))$ 。
然后，我们对所有可能的状态 s 按照旧策略的状态分布 $\rho_{\theta_{old}}(s)$ 取期望，得到 $\mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}} \left[ D_{\text{KL}}(\pi_{\theta_{old}}(\cdot|s) \| \pi_{\theta}(\cdot|s)) \right]$ 。
这个期望表示了在旧策略的状态分布下，新旧策略之间的平均差异。

4.3. 信任区域约束的意义

我们通过设置一个约束条件
$\mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}} \left[ D_{\text{KL}}(\pi_{\theta_{old}}(\cdot|s) \| \pi_{\theta}(\cdot|s)) \right] \leq \delta$
其中 $D_{\text{KL}}(p \| q) = \sum p(x) \log \frac{p(x)}{q(x)}$ 是KL散度， $\delta$ 是信任区域半径。

可以限制新策略 $\pi_{\theta}$ 与旧策略 $\pi_{\theta_{old}}$ 之间的差异，确保新策略不会偏离旧策略太远。
保证基于旧策略收集的数据在一定程度上仍然适用于新策略，从而使得策略更新过程更加稳定。
通过在这个约束条件下优化目标函数 $L(\theta)$ ，我们可以在保证策略性能提升的同时，避免因策略更新幅度过大而导致的不稳定问题。

4. 优化问题的构建

结合目标函数 $L(\theta)$ 和 KL 散度约束，TRPO 算法将策略更新问题转化为一个约束优化问题：
$\max_\theta L(\theta), \quad \text{s.t.} \quad \mathbb{E}_s [D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_\theta)] \leq \delta.$
这个式子表示在保证新策略 $\pi_{\theta}$ 和旧策略 $\pi_{\theta_{old}}$ 之间的平均 KL 散度不超过给定阈值 $\delta$ 的前提下，找到最优的策略参数 $\theta$ 来最大化目标函数 $L(\theta)$

5. 约束条件的近似与简化

5.1 KL散度的二阶泰勒展开

5.1.1 泰勒展开的动机

在TRPO中，我们需要约束新旧策略的KL散度不超过阈值 $\delta$ ，但直接优化KL散度的非线性约束较为困难。因此，我们在旧策略参数 $\theta_{\text{old}}$ 附近对KL散度进行二阶泰勒展开，将其近似为参数变化的二次函数，从而将非线性约束转化为易于处理的二次约束。

5.1.2 具体展开过程

设策略参数为 $\theta$ ，旧策略参数为 $\theta_{\text{old}}$ ，定义 $\Delta\theta = \theta - \theta_{\text{old}}$ 。KL散度 $D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_\theta)$ 是关于 $\theta$ 的函数，在 $\theta_{\text{old}}$ 处的泰勒展开为：
$D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_\theta) \approx D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_{\theta_{\text{old}}}) + \nabla_\theta D_{\text{KL}}|_{\theta=\theta_{\text{old}}} \cdot \Delta\theta + \frac{1}{2} (\Delta\theta)^T \mathbf{H} (\Delta\theta),$
其中：

一阶项：由于 $D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_{\theta_{\text{old}}}) = 0$ （KL散度自反性为0），且KL散度在 $\theta_{\text{old}}$ 处的梯度为0（旧策略处的KL散度对参数的导数为0，因为此时新旧策略相同），故一阶项为0。
二阶项： $\mathbf{H}$ 是KL散度关于 $\theta$ 的Hessian矩阵。对于策略梯度模型，Hessian矩阵可近似为Fisher信息矩阵（FIM, Fisher Information Matrix） $\mathbf{F}$ ，其定义为：
$\mathbf{F} = \mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}, a \sim \pi_{\theta_{\text{old}}}} \left[ \nabla_\theta \log \pi_{\theta_{\text{old}}}(a|s) \nabla_\theta \log \pi_{\theta_{\text{old}}}(a|s)^T \right].$
Fisher信息矩阵描述了策略分布的曲率，是参数空间中KL散度的二阶导数近似，具有对称性和正定性（确保二次函数凸性）。

最终，KL散度的二阶近似为：
$D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_\theta) \approx \frac{1}{2} (\theta - \theta_{\text{old}})^T \mathbf{F} (\theta - \theta_{\text{old}}).$

5.2 优化问题的近似形式

5.2.1 原问题回顾

TRPO的优化问题为：
$\max_\theta L(\theta), \quad \text{s.t.} \quad \mathbb{E}_s [D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_\theta)] \leq \delta,$
其中 $L(\theta)$ 是目标函数（如重要性采样后的优势函数期望），即： $L(\theta) = \mathbb{E}_{s \sim \rho_{\theta_{\text{old}}}, a \sim \pi_{\theta_{\text{old}}}} \left[ \frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)} A^{\pi_{\theta_{\text{old}}}}(s, a) \right].$

5.2.2 目标函数的一阶近似

在 $\theta_{\text{old}}$ 附近，对 $L(\theta)$ 进行一阶泰勒展开：
$L(\theta) \approx L(\theta_{\text{old}}) + \nabla_\theta L(\theta_{\text{old}})^T (\theta - \theta_{\text{old}}).$
由于我们只关心参数更新的方向（最大化提升量），常数项 $L(\theta_{\text{old}})$ 可忽略，目标函数近似为：
$\max_\theta \nabla_\theta L(\theta_{\text{old}})^T (\theta - \theta_{\text{old}}).$

5.2.3 约束条件的二阶近似

将KL散度约束替换为二阶泰勒展开式：
$\mathbb{E}_s [D_{\text{KL}}(\pi_{\theta_{\text{old}}} \| \pi_\theta)] \approx \frac{1}{2} (\theta - \theta_{\text{old}})^T \mathbf{F} (\theta - \theta_{\text{old}}) \leq \delta.$
至此，原问题转化为一个带二次约束的线性优化问题（凸优化问题）：
$\max_{\Delta\theta} g^T \Delta\theta, \quad \text{s.t.} \quad \frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta \leq \delta$
其中：

$\nabla_\theta L(\theta_{\text{old}})$ 是目标函数在旧策略处的梯度（向量）；
$\mathbf{F}$ 是 Fisher 信息矩阵（正定矩阵，由旧策略的分布计算得到，与 $\Delta\theta$ 无关）；
$\delta$ 是信任区域半径（标量常数）。

由于约束是凸的（二次型约束），且目标函数是线性的，最优解必然出现在约束边界上（即等式成立时），因此可以使用拉格朗日乘子法将约束优化问题转化为无约束优化问题。

6. 更新方向的求解

6.1 拉格朗日函数的构造

6.1.1 构造逻辑

目标：在满足约束 $\frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta = \delta$ 的前提下，最大化目标函数 $g^T \Delta\theta$ 。
拉格朗日乘子：引入非负乘子 $\lambda \geq 0$ （对应不等式约束的 KKT 条件），构造拉格朗日函数：
$\mathcal{L}(\Delta\theta, \lambda) = g^T \Delta\theta - \lambda \left( \frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta - \delta \right).$
- 第一项是原目标函数，
- 第二项是约束的惩罚项：当约束不满足时（ $\frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta > \delta$ ），惩罚项会增大，从而迫使解回到约束边界。

6.1.2 乘子的非负性

根据 KKT 条件，对于不等式约束 $\frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta \leq \delta$ ，乘子 $\lambda \geq 0$ 。若最优解在约束内部（即约束不起作用），则 $\lambda = 0$ ，但此时目标函数无界（线性函数在无约束下可无限增大），与实际问题矛盾，因此最优解必然在约束边界上（ $\lambda > 0$ ）。

6.2 对 $\Delta\theta$ 求导与最优条件

6.2.1 矩阵求导规则

对 $\Delta\theta$ 求偏导时，需用到以下矩阵导数公式：

$\nabla_{\Delta\theta} (g^T \Delta\theta) = g$ （线性项导数为梯度本身），
$\nabla_{\Delta\theta} (\Delta\theta^T \mathbf{F} \Delta\theta) = 2\mathbf{F} \Delta\theta$ （二次型导数为 $2\mathbf{F} \Delta\theta$ ，因 $\mathbf{F}$ 是对称矩阵）。

6.2.3 求导过程

对 $\mathcal{L}(\Delta\theta, \lambda)$ 关于 $\Delta\theta$ 求导并令导数为零：
$\nabla_{\Delta\theta} \mathcal{L} = g - \lambda \cdot \nabla_{\Delta\theta} \left( \frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta \right) = g - \lambda \mathbf{F} \Delta\theta = 0.$
整理得：
$\lambda \mathbf{F} \Delta\theta = g \implies \Delta\theta = \lambda^{-1} \mathbf{F}^{-1} g.$

6.2.4 解的含义

$\Delta\theta = \lambda^{-1} \mathbf{F}^{-1} g$ 表示参数更新方向由 自然梯度（Natural Gradient）决定。
- 普通梯度是 $g$ ，而自然梯度考虑了策略分布的几何结构（通过 $\mathbf{F}^{-1}$ 加权），能更高效地在参数空间中搜索。
$\lambda$ 是拉格朗日乘子，控制更新步长的大小，需通过约束条件确定。

6.3 利用约束条件求解 $\lambda$ 并得到更新方向

将 $\Delta\theta = \lambda^{-1} \mathbf{F}^{-1} g$ 代入约束条件 $\frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta = \delta$ ：
$\frac{1}{2} \left( \lambda^{-1} \mathbf{F}^{-1} g \right)^T \mathbf{F} \left( \lambda^{-1} \mathbf{F}^{-1} g \right) = \delta.$
化简：
$\frac{1}{2} \lambda^{-2} g^T \mathbf{F}^{-1} \mathbf{F} \mathbf{F}^{-1} g = \delta \implies \frac{1}{2} \lambda^{-2} g^T \mathbf{F}^{-1} g = \delta.$
解得：
$\lambda^{-2} = \frac{2\delta}{g^T \mathbf{F}^{-1} g} \implies \lambda = \sqrt{\frac{g^T \mathbf{F}^{-1} g}{2\delta}}.$
将 $\lambda$ 代入 $\Delta\theta$ 的表达式：
$\Delta\theta = \sqrt{\frac{2\delta}{g^T \mathbf{F}^{-1} g}} \mathbf{F}^{-1} g.$
令步长 $\alpha = \sqrt{\frac{2\delta}{g^T \mathbf{F}^{-1} g}}$ ，则：
$\begin{align*} \theta_{\text{new}} &= \theta_{\text{old}} + \Delta\theta \\ &= \theta_{\text{old}} + \alpha \mathbf{F}^{-1} g \\ &= \theta_{\text{old}} + \sqrt{\frac{2\delta}{g^T \mathbf{F}^{-1} g}} \mathbf{F}^{-1} \nabla_\theta L(\theta_{\text{old}}) \end{align*}$

6.3.1 关键性质与意义

自然梯度的本质
- $\mathbf{F}^{-1} g$ 是 自然梯度方向，它在参数空间中考虑了策略分布的局部几何结构（Fisher 信息矩阵描述了分布的曲率），相比普通梯度，自然梯度能更有效地指向“最优”方向，避免因参数尺度问题导致的更新不稳定。
步长的约束满足
- 步长 $\alpha$ 由约束条件 $\delta$ 和梯度方向的“长度”（通过 $\mathbf{F}^{-1}$ 加权）共同决定，确保更新后的参数满足 $\frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta = \delta$ ，即新旧策略的 KL 散度恰好等于信任区域半径，在允许的最大范围内实现目标函数的最大提升。
求解的高效性
- 实际中，直接计算 $\mathbf{F}^{-1} g$ 对高维矩阵来说计算量巨大，通常使用 共轭梯度法 等迭代方法近似求解，避免显式矩阵求逆，这也是 TRPO 能处理大规模策略（如神经网络）的关键原因之一。

6.4 总结

通过拉格朗日乘子法，我们将带二次约束的优化问题转化为无约束优化问题，求得的最优解 $\Delta\theta$ 满足两个核心条件：

梯度条件：沿自然梯度方向（考虑策略分布曲率），
约束条件：策略变化幅度被严格限制在信任区域内（KL 散度等于 $\delta$ ）。

这一过程确保了 TRPO 算法在稳定更新策略的同时，实现性能的最大提升，是其理论严谨性和实际有效性的关键保证。

7. 推导过程总结

步骤	关键操作	数学形式
1	定义替代目标函数	$L(\theta) = \mathbb{E} \left[ \frac{\pi_\theta}{\pi_{\text{old}}} A \right]$
2	引入KL散度约束	$\mathbb{E}_s [D_{\text{KL}}(\pi_{\text{old}} \| \pi_\theta)] \leq \delta$
3	二阶泰勒展开KL散度	$D_{\text{KL}} \approx \frac{1}{2} \Delta\theta^T \mathbf{F} \Delta\theta$
4	拉格朗日乘子法求解	$\theta_{\text{new}} = \theta_{\text{old}} + \sqrt{\frac{2\delta}{g^T \mathbf{F}^{-1} g}} \mathbf{F}^{-1} \nabla_\theta L(\theta_{\text{old}})$