【强化学习】04.策略梯度(Policy Gradient)算法原理及对比分析
1.基本原理
策略梯度(Policy Gradient)方法是一类直接基于策略优化的强化学习算法。它的核心思想是通过参数化一个策略函数(policy),直接对策略的参数进行优化,使得在特定环境中累积的期望回报最大化。与值函数方法(如Q-learning或DQN)不同,策略梯度方法不显式地学习状态值函数或动作值函数,而是直接学习一个参数化的概率分布,用于决定在给定状态下采取哪种动作。
在策略梯度方法中,策略 π θ ( a ∣ s ) \pi_{\theta}(a|s) πθ(a∣s) 表示在状态 s s s 下采取动作 a a a 的概率,参数 θ \theta θ 是策略的参数。通过一个优化目标(通常是期望累积回报 J ( θ ) J(\theta) J(θ)),我们使用梯度上升或下降更新参数,使得策略不断改进。
目标函数:
J ( θ ) = E π [ ∑ t = 0 T γ t r t ] J(\theta) = \mathbb{E}_{\pi} \left[ \sum_{t=0}^T \gamma^t r_t \right] J(θ)=Eπ[t=0∑Tγtrt]
其中:
- r t r_t rt 为时间步 t t t 的奖励;
- γ \gamma γ 是折扣因子,用于权衡短期与长期回报;
- π θ \pi_{\theta} πθ 是当前策略。
策略梯度利用以下梯度公式进行优化:
∇ θ J ( θ ) = E π [ ∇ θ log π θ ( a ∣ s ) ⋅ G t ] \nabla_{\theta} J(\theta) = \mathbb{E}_{\pi} \left[ \nabla_{\theta} \log \pi_{\theta}(a|s) \cdot G_t \right] ∇θJ(θ)=Eπ[∇