【强化学习】04.策略梯度(Policy Gradient)算法原理及对比分析

【强化学习】04.策略梯度(Policy Gradient)算法原理及对比分析


1.基本原理

策略梯度(Policy Gradient)方法是一类直接基于策略优化的强化学习算法。它的核心思想是通过参数化一个策略函数(policy),直接对策略的参数进行优化,使得在特定环境中累积的期望回报最大化。与值函数方法(如Q-learning或DQN)不同,策略梯度方法不显式地学习状态值函数或动作值函数,而是直接学习一个参数化的概率分布,用于决定在给定状态下采取哪种动作。

在策略梯度方法中,策略 π θ ( a ∣ s ) \pi_{\theta}(a|s) πθ(as) 表示在状态 s s s 下采取动作 a a a 的概率,参数 θ \theta θ 是策略的参数。通过一个优化目标(通常是期望累积回报 J ( θ ) J(\theta) J(θ)),我们使用梯度上升或下降更新参数,使得策略不断改进。

目标函数:
J ( θ ) = E π [ ∑ t = 0 T γ t r t ] J(\theta) = \mathbb{E}_{\pi} \left[ \sum_{t=0}^T \gamma^t r_t \right] J(θ)=Eπ[t=0Tγtrt]

其中:

  • r t r_t rt 为时间步 t t t 的奖励;
  • γ \gamma γ 是折扣因子,用于权衡短期与长期回报;
  • π θ \pi_{\theta} πθ 是当前策略。

策略梯度利用以下梯度公式进行优化:
∇ θ J ( θ ) = E π [ ∇ θ log ⁡ π θ ( a ∣ s ) ⋅ G t ] \nabla_{\theta} J(\theta) = \mathbb{E}_{\pi} \left[ \nabla_{\theta} \log \pi_{\theta}(a|s) \cdot G_t \right] θJ(θ)=Eπ[

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值