【强化学习】04.策略梯度（Policy Gradient）算法原理及对比分析

浪啦里格朗

已于 2025-01-22 13:33:43 修改

阅读量940

点赞数 27

分类专栏：强化学习文章标签：算法机器学习人工智能

于 2025-01-19 11:28:19 首次发布

本文链接：https://blog.csdn.net/songxia928_928/article/details/145240895

版权

【强化学习】04.策略梯度（Policy Gradient）算法原理及对比分析

1.基本原理

策略梯度（Policy Gradient）方法是一类直接基于策略优化的强化学习算法。它的核心思想是通过参数化一个策略函数（policy），直接对策略的参数进行优化，使得在特定环境中累积的期望回报最大化。与值函数方法（如Q-learning或DQN）不同，策略梯度方法不显式地学习状态值函数或动作值函数，而是直接学习一个参数化的概率分布，用于决定在给定状态下采取哪种动作。

在策略梯度方法中，策略 $\pi_{\theta}(a|s)$ 表示在状态 $s$ 下采取动作 $a$ 的概率，参数 $\theta$ 是策略的参数。通过一个优化目标（通常是期望累积回报 $J(\theta)$ ），我们使用梯度上升或下降更新参数，使得策略不断改进。