策略梯度方法介绍——蒙特卡洛策略梯度方法REINFORCE
目录
上一节介绍了 ∇ J ( θ ) \nabla \mathcal J(\theta) ∇J(θ)的求解过程的推导,本节将基于上述推导进行补充,构建更加泛化的表达式,从而引出REINFORCE算法的更新方程。
回顾: ∇ J ( θ ) \nabla \mathcal J(\theta) ∇J(θ)梯度求解结果
上一节介绍关于 ∇ J ( θ ) \nabla \mathcal J(\theta) ∇J(θ)梯度方向的求解结果如下:
∇ J ( θ ) = ∇ V π ( s 0 ) ∝ ∑ s ∈ S μ ( s ) ∑ a ∈ A ( s ) ∇ π ( a ∣ s ) q π ( s , a ) \begin{aligned} \nabla \mathcal J(\theta) & = \nabla V_\pi(s_0) \\ & \propto \sum_{s \in \mathcal S} \mu(s) \sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a) \end{aligned} ∇J(θ)=∇Vπ(s0)∝s∈S∑μ(s)a∈A(s)∑∇π(a∣s)qπ(s,a)
其中 s 0 s_0 s0表示情节的初始状态, μ ( s ) \mu(s) μ(s)表示某状态 s s s在情节中出现的概率:
μ ( s ) = η ( s ) ∑ s ′ η ( s ′ ) \mu(s) = \frac{\eta(s)}{\sum_{s'}\eta(s')} μ(s)=∑s′η(s′)η(s)
η ( s ) \eta(s) η(s)表示某状态 s s s在情节中出现的平均次数。
策略梯度定理的延伸
观察 ∇ J ( θ ) \nabla \mathcal J(\theta) ∇J(θ)梯度方向的求解结果:
∇ J ( θ ) ∝ ∑ s ∈ S μ ( s ) ∑ a ∈ A ( s ) ∇ π ( a ∣ s ) q π ( s , a ) \nabla \mathcal J(\theta) \propto \sum_{s \in \mathcal S} \mu(s) \sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a) ∇J(θ)∝s∈S∑μ(s)a∈A(s)∑∇π(a∣s)qπ(s,a)
发现 μ ( s ) \mu(s) μ(s)本身是状态 s s s的出现概率 → \to → 可以将 ∑ s ∈ S μ ( s ) \sum_{s \in \mathcal S} \mu(s) ∑s∈Sμ(s)表示为表示为期望形式:
∑ s ∈ S μ ( s ) ∑ a ∈ A ( s ) ∇ π ( a ∣ s ) q π ( s , a ) = E ? [ ∑ a ∈ A ( s ) ∇ π ( a ∣ s ) q π ( s , a ) ] \sum_{s \in \mathcal S} \mu(s) \sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a) = \mathbb E_{?}\left[\sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a)\right] s∈S∑μ(s)a∈A(s)∑∇π(a∣s)qπ(s,a)=E?⎣
⎡a∈A(s)∑∇π(a∣s)qπ(s,a)⎦
⎤
问题:期望符号中的概率分布 是谁(上式中“?”部分);
既然是关于状态的概率分布,我们定义这样一个分布符号: ρ π θ \rho^{\pi_{\theta}} ρπθ,使得状态 s s s的出现概率服从该分布。
需要注意的点:该分布不仅和策略函数
π ( a ∣ s ; θ ) \pi(a \mid s;\theta) π(a∣s;θ)相关,因为‘状态转移过程’是系统内部的变化,因此这个出现概率的分布还与‘环境’相关。
∀ s ∈ S → s ∼ ρ π θ ( s ) = lim t → ∞ P ( S t = s ∣ A 0 : t ∼ π ) \forall s \in \mathcal S \to s \sim \rho^{\pi_{\theta}}(s) = \mathop{\lim}\limits_{t \to \infty}P(S_t = s \mid A_{0:t} \sim \pi) ∀s∈S→s∼ρπθ(s)=t→∞limP(St=s∣A0:t∼π)
上述式子整理如下:
E s ∼ ρ π θ [ ∑ a ∈ A ( s ) ∇ π ( a ∣ s ) q π ( s , a ) ] \mathbb E_{s \sim \rho^{\pi_{\theta}}}\left[\sum_{a \in \mathcal A(s)} \nabla \pi(a \mid s)q_\pi(s,a)\right] Es∼ρπθ⎣
⎡