强化学习（四）- Advantage Actor-Critic 及贝尔曼方程推导（A2C）

本文链接：https://blog.csdn.net/weixin_42529756/article/details/135035753

0 概览

Advantage Actor-Critic 主要在于Q函数的计算，
其中baseline b选择为状态价值函数，使用神经网络代替 $V_\pi (s,w)$
Q函数使用贝尔曼方程来近似 $Q_\pi(s,A)=r_t+\gamma V_\pi(s_{t+1})$
其中Advantage 体现在 $Q_\pi(s,A)-V_\pi(s_t)$ 上
贝尔曼方程：
$Q_\pi(s_t,a_t)=E_{S_{t+1}}[R_t+\gamma *V_\pi(S_{t+1})]$
$V_\pi (s_t)=E_{A_t,S_{t+1}}[R_t+\gamma *V_\pi(S_{t+1})]]$

1 核心公式

policy gradient 公式；
$E_{A～\pi}[\frac{\partial In\pi(A|s;\theta)}{\partial \theta} * (Q_\pi(s,A)-b)]$
其中baseline b 使用 $V_\pi(s_t)$ 表示
则核心公式为
$E_{A～\pi}[\frac{\partial In\pi(A|s;\theta)}{\partial \theta} * (Q_\pi(s,A)-V_\pi(s_t))]$ (公式1 )

2个神经网络actor 和critic

actor ,策略 policy $\pi$ 使用神经网络表示: $\pi(a|s;\theta)$
critic , 状态价值函数V 使用神经网络表示 $V_\pi (s,w)$

3 模型训练

训练目标：

actor 网络：使状态价值函数V的值最大
critic网络：使TDtarget $和s_{t}$ 的价值网络误差最小

模型训练

1 观察一组状态转移数据 $s_t,a_t,r_t,s_{t+1})$
2 计算TDtarget ,使用 $y_t=r_t+\gamma . v(s_{t+1};w)$ ,其中V为神经网络
3 计算 $s_t和s_{t+1}$ 的TD error ; $\delta_t=V(s_t;w)-y_t$
4 更新策略梯度 $\pi$ 神经网络；
$\theta=\theta-\beta* \delta_t \frac{\partial In\pi(a_t|s_t;\theta)} {\partial \theta}$
5 更新价值网络v
$w=w-\alpha*\delta_t*\frac{\partial v(s_t;w)}{\partial w}$

4 贝尔曼方程推导

基本定义：

回报(累计奖励) return : $U_t=R_t+\gamma R_{t+1}+\gamma^2R{t+2}+\gamma^3R{t+3} ....$
动作价值函数： $Q_\pi (s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]$
状态价值函数： $V_\pi (s_t)=E_A[Q_\pi(s_t,A)]$

贝尔曼方程推导

$Q_\pi(s_t,a_t)=E_{S_{t+1},A_{t+1}}[R_t+\gamma *Q_\pi(S_{t+1},A_{t+1})]$
讲求和 $A_{t+1}$ 移动到公式内
$Q_\pi(s_t,a_t)=E_{S_{t+1}}[R_t+\gamma *E_{A_{t+1}}[Q_\pi(S_{t+1},A_{t+1})]]$