策略梯度方法介绍——蒙特卡洛策略梯度方法(REINFORCE)

最新推荐文章于 2025-03-15 20:32:04 发布

静静的喝酒

最新推荐文章于 2025-03-15 20:32:04 发布

阅读量2.9k

点赞数 8

分类专栏：强化学习文章标签：算法概率论人工智能

本文链接：https://blog.csdn.net/qq_34758157/article/details/125945391

版权

策略梯度方法介绍——蒙特卡洛策略梯度方法REINFORCE

上一节介绍关于 $\nabla \mathcal J(\theta)$ 梯度方向的求解结果如下：
$\begin{aligned} \nabla \mathcal J(\theta) & = \nabla V_\pi(s_0) \\ & \propto \sum_{s \in \mathcal S} \mu(s) \sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a) \end{aligned}$
其中 $s_0$ 表示情节的初始状态， $\mu(s)$ 表示某状态 $s$ 在情节中出现的概率：
$\mu(s) = \frac{\eta(s)}{\sum_{s'}\eta(s')}$
$\eta(s)$ 表示某状态 $s$ 在情节中出现的平均次数。

策略梯度定理的延伸

观察 $\nabla \mathcal J(\theta)$ 梯度方向的求解结果：
$\nabla \mathcal J(\theta) \propto \sum_{s \in \mathcal S} \mu(s) \sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a)$
发现 $\mu(s)$ 本身是状态 $s$ 的出现概率 $\to$ 可以将 $\sum_{s \in \mathcal S} \mu(s)$ 表示为表示为期望形式：
$\sum_{s \in \mathcal S} \mu(s) \sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a) = \mathbb E_{?}\left[\sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a)\right]$
问题：期望符号中的概率分布 是谁(上式中“?”部分)；
既然是关于状态的概率分布，我们定义这样一个分布符号： $\rho^{\pi_{\theta}}$ ，使得状态 $s$ 的出现概率服从该分布。
需要注意的点：该分布不仅和策略函数 $\pi(a \mid s;\theta)$ 相关，因为‘状态转移过程’是系统内部的变化，因此这个出现概率的分布还与‘环境’相关。
$\forall s \in \mathcal S \to s \sim \rho^{\pi_{\theta}}(s) = \mathop{\lim}\limits_{t \to \infty}P(S_t = s \mid A_{0:t} \sim \pi)$
上述式子整理如下：
$\mathbb E_{s \sim \rho^{\pi_{\theta}}}\left[\sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a)\right]$