策略梯度方法是强化学习中直接优化策略的一类算法,通过梯度上升最大化期望回报。
一 核心思想
1.1直接策略参数化
将策略(即状态到动作的映射)通过参数化的模型(如神经网络)显式表示,从而通过优化模型参数来提升策略性能。
(1)策略的本质
在强化学习中,策略定义了智能体在状态 s 时选择动作 a 的规则,通常分为:
确定性策略: ,直接输出具体动作(适用于连续控制)。
随机性策略: ,输出动作的概率分布(适用于探索与随机环境)。
(2)参数化的意义
通过可学习参数 (如神经网络的权重)显式表示策略,使得梯度上升算法可以直接调整参数以优化长期回报。传统方法(如 Q-Learning)间接优化值函数,而策略梯度直接对策略建模,自然支持复杂动作空间(如连续、高维动作)。
(3)参数化形式
离散动作空间:
输出层设计:神经网络最后一层为 Softmax 层,生成每个动作的概率。
输入:状态 s(如图像、向量)。
输出: ,其中
为神经网络输出的 logits(Logits 是机器学习和深度学习中用于分类模型的术语,指代模型最后一层(全连接层)的原始输出值,未经任何归一化或概率转换(如 Softmax 或 Sigmoid))。
eg:
在 CartPole 任务中,状态是车的位移和速度,动作为“向左”或“向右”。
网络输出每个动作的概率,例如 [0.7,0.3],表示向左的概率为 70%。
连续动作空间:
概率分布建模:输出动作的概率分布参数(如高斯分布的均值和方差)。
输入:状态 s。
输出设计:
均值 :由神经网络直接输出,表示动作的中心值。
方差 或
:可固定(如
),也可由网络输出(需保证正值,常用指数函数转换)。
动作采样:
eg:
机器人控制中,关节扭矩是一个连续值,策略网络输出扭矩的均值和方差,然后按高斯分布采样。
混合动作空间:
若同时存在离散和连续动作(如“发射导弹”+“导弹方向”),可组合两种参数化方式:
离散分支选择是否发射导弹(Softmax)
连续分支控制导弹方向(高斯分布)
直接策略参数化为强化学习提供了灵活的策略建模方式,是策略梯度方法、Actor-Critic 系列算法等技术的基础。
1.2 目标函数
最大化期望回报 , 其中
是轨迹
的累积回报。
是参数为 θ 的策略
是策略与环境交互生成的轨迹。
是轨迹的累积回报,通常为折扣形式:
γ∈[0,1] 为折扣因子
在实际算法中,目标函数及其梯度的计算需基于采样估计,步骤如下:
(1)采集轨迹数据
用当前策略 与环境交互,生成 N 条轨迹
,每条轨迹包含状态、动作及奖励序列。
(2) 计算每条轨迹的回报
对轨迹,计算每个时间步 t 的折扣回报:
(3)估计梯度
通过蒙特卡洛平均估计梯度:
1.3 梯度计算
通过似然比技巧将梯度转换为期望形式:
似然比是策略梯度方法推导中的核心数学工具,它将策略参数的梯度转化为可估计的期望形式,使得无需直接计算环境动态模型,仅通过采样即可优化策略。
似然比的本质是策略的对数概率对参数的导数:
它衡量了参数 θ 调整时,采取动作 的对数概率的相对变化。
该技巧将梯度表达为 策略概率的变化率乘以回报 的加权平均,通过采样轨迹进行估计。
二 优化技术
2.1 因果关系与折扣因子
修正梯度仅考虑当前动作之后的回报,使用折扣累计回报 :
之前的做一下对比:、、
2.2 基线(Baseline)
引入状态值函数 V(s) 作为基线,降低方差。优势函数 ,梯度变为:
: 状态-动作对的长期价值。
:状态的长期平均价值。
: 动作相对于策略平均水平的优势,是策略梯度更新的核心驱动力。
通过估计和使用 A(s,a),策略梯度方法能更高效地选择高收益动作,同时保持更新过程的稳定性。
三 算法分类
REINFORCE:蒙特卡洛方法,使用完整轨迹回报更新策略,方差较高。
Actor-Critic:结合策略(Actor)与值函数(Critic),Critic评估 V(s) 或 Q(s,a) ,提供低方差梯度估计。常见变体包括:
A2C/A3C:同步/异步框架,并行采样加速训练。
GAE(Generalized Advantage Estimation):多步优势估计,平衡偏差与方差。
高级优化方法:
TRPO(Trust Region Policy Optimization):通过KL散度约束限制策略更新幅度。
PPO(Proximal Policy Optimization):简化TRPO,使用概率比裁剪控制更新,稳定高效。
四 应用场景
机器人控制、游戏AI(如OpenAI Five)、金融交易策略等需精细动作调控的领域。
策略梯度方法通过直接优化策略参数,结合值函数近似及高级优化技术,成为强化学习中的核心范式,尤其以PPO为代表的算法在实践中广泛应用。