强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

CyrusMay

已于 2022-04-13 16:32:53 修改

阅读量1.3w

点赞数 20

分类专栏：强化学习文章标签： python 算法强化学习人工智能

于 2022-04-12 23:42:17 首次发布

本文链接：https://blog.csdn.net/Cyrus_May/article/details/124137445

版权

强化学习专栏收录该内容

16 篇文章

订阅专栏

强化学习—— 离散与连续动作空间（随机策略梯度与确定策略梯度）

1. 动作空间
- 1.1 离散动作空间
- 1.2 连续动作空间
2. 确定策略梯度做连续控制
3. 随机策略网络进行连续控制
4 总结

1. 动作空间

1.1 离散动作空间

比如: ${left,right,up\}$
DQN可以用于离散的动作空间（策略网络）

1.2 连续动作空间

比如： $A=[0^{\circ} ，180^{\circ} ]*[0^{\circ} ,360^{\circ} ]$
连续动作空间的两种处理方式：

离散化（discretization）：比如机械臂进行二维网格划分。假设d为连续动作空间的自由度，动作离散化后的数量会随着d的增加呈现指数增长，从而造成维度灾难。
使用确定策略梯度。
使用随机策略梯度。

2. 确定策略梯度做连续控制

在这里插入图片描述

动作空间为 $R^d$ 的一个子集

2.1 确定策略梯度推导

确定策略网络： $\pi(s;\theta)$
价值网络(输出为一个标量)： $q (s, a; W)$
网络学习过程为：

观测到一个transition： $s_t,a_t,r_t,s_{t+1})$
计算t时刻价值网络的函数值: $q_t = q(s_t,a_t;W)$
计算t+1时刻价值网络的函数值： $a_{t+1}^-=\pi(s_{t+1};\theta)\\q_{t+1}=q(s_{t+1},a_{t+1}^-;W)$
TD Error为： $\delta_t=q_t-(r_t+\gamma\cdot q_{t+1})$
更新价值网络： $W\gets W-\alpha\cdot\frac{\partial q(s_t,a_t;W)}{\partial W}$
更新策略网络所需的策略梯度推导： $策略网络的目标为通过策略网络a=\pi(s;\theta)\\做出的决策可以增加价值网络q=q(s,a;W)的值。\\ 因此确定策略梯度（deterministic policy gradient， DPG）为：\\ g=\frac{\partial q(s,\pi(s;\theta);W)}{\partial \theta}=\frac{\partial q(s.\pi(s;\theta);W)}{\partial \pi(s;\theta)}\cdot \frac{\partial \pi(s;\theta)}{\partial \theta}$
依据确定策略梯度进行策略网络参数更新： $g=\frac{\partial q(s,\pi(s;\theta);W)}{\partial \theta}=\frac{\partial q(s.\pi(s;\theta);W)}{\partial \pi(s;\theta)}\cdot \frac{\partial \pi(s;\theta)}{\partial \theta}\\ \theta\gets \theta+\beta\cdot g$

2.2 确定策略梯度网络的改进

2.2.1 使用Target网络

Bootstrapping现象：

TD Target为： $\delta_t =q_t-(r_t+\gamma\cdot q_{t-1})$
价值网络使用到了自己的估计来更新自己，因而会造成连续高估或低估
解决方案为：使用不同的神经网络来进行TD Target计算

Target网络的核心思想：

使用价值网络计算 $t$ 时刻的价值函数值: $q_t = q(s_t,a_t;W)$
使用另外两个结构与价值网络和策略网络一致的神经网络计算t+1时刻的价值函数值和动作向量： $a_{t+1}^-=\pi(s_{t+1};\theta^-)\\q_{t+1}=q(s_{t+1},a_{t+1}^-;W^-)$

采用Target网络的具体学习步骤为：

策略网络进行决策： $a_t=\pi(s_t;\theta)$
采用确定策略梯度（DPG）更新策略网络: $\theta\gets \theta+\beta\cdot \frac{\partial q(s_t,\pi(s_t;\theta);W)}{\partial \pi(s_t;\theta)}\cdot \frac{\partial \pi(s_t;\theta)}{\partial \theta}$
计算t时刻的价值网络函数值： $q_t=q(s_t,a_t;W)$
使用Target网络计算t+1时刻的价值： $a_{t+1}^-=\pi(s_{t+1};\theta^-)\\q_{t+1}=q(s_{t+1},a_{t+1}^-;W^-)$
计算TD Error： $\delta_t=q_t-(r_t+\gamma \cdot q_{t+1})$
更新价值网络的参数： $W\gets W-\alpha\cdot \delta_t \cdot \frac{\partial q(s_t,a_t;W)}{\partial W}$

Target 网络的参数更新步骤为：

设定超参数 $\tau \in [0,1]$
将价值网络、策略网络与Target网络的参数进行加权平均，从而实现参数更新： $\theta^- = \tau\cdot\theta+(1-\tau)\cdot \theta^-\\W^-=\tau\cdot W+(1-\tau)\cdot W^-$

2.2.2 其余改进

经验回放（experience replay）
Multi-step TD Target

2.3 总结

/	随机策略网络	确定性策略网络
策略函数	$\pi(a\|,s;\theta)$	$\pi(s;\theta)$
输出	动作空间的概率分布	确定的动作 $a$
决策方式	根据动作空间的概率分布进行随机抽样	直接输出一个动作 $a$
应用场景	多用于离散控制	连续控制

3. 随机策略网络进行连续控制

3.1 基本概念

折扣回报： $U_t = R_t+\gamma\cdot R_{t+1}+\gamma^2\cdot R_{t+2}+...$
动作价值函数： $Q_\pi(s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]$
状态价值函数： $V_\pi(s_t)=E_{A_t}[Q_\pi(s_t,A_t)]$
策略梯度： $\frac{\partial V_\pi(s_t)}{\partial \theta}=E_{A_t\sim \pi}[Q_\pi(s_t,A_t)\cdot\frac{\partial log(\pi(A_t|s_t;\theta))}{\partial \theta}]\\g(A_t)=Q_\pi(s_t,A_t)\cdot\frac{\partial log(\pi(A_t|s_t;\theta))}{\partial \theta}$
进行蒙特卡洛近似后的策略梯度为： $a_t\sim\pi(\cdot|s_t;\theta)\\g(a_t)=Q_\pi(s_t,a_t)\cdot\frac{\partial log(\pi(a_t|s_t;\theta))}{\partial \theta}$

3.2 策略网络

3.2.1 自由度为1的连续动作空间

假设 $\mu$ 和 $\sigma$ 为状态 $s$ 的函数
假设策略函数为正态分布的概率密度函数： $\pi(a|s)=\frac{1}{\sqrt{2\pi}\cdot\sigma}e^{-\frac{(a-\mu)^2}{2\sigma^2}}$

3.2.2 自由度大于1（为 $d$ ）的连续动作空间

动作空间为d维向量
$\mu$ 和 $\sigma$ 为状态 $s$ 的函数： $s\to R^d$
$\mu_i$ 和 $\sigma_i$ 为 $\mu(s)$ 和 $\sigma(s)$ 的第 $i$ 个元素
则定义策略函数为： $\pi(a|s)=\Pi_{i=1}^d \frac{1}{\sqrt{2\pi}\cdot\sigma_i}e^{-\frac{(a-\mu_i)^2}{2\sigma_i^2}}$

3.2.3 函数近似

对均值的近似： $\mu(s)\gets \mu(s;\theta^\mu)$
对方差的对数进行近似： $\rho_i = log(\sigma_i^2) \quad i = 1,2,...,d\\\rho\gets \rho(s;\theta^\rho)$

在这里插入图片描述

3.2.4 连续控制策略

观测到状态 $s_t$
通过神经网络计算均值和方差： $\hat{\mu}=\mu(s_t;\theta)\\\hat{\rho}=\rho(s_t;\theta)\\\hat{\sigma_i}^2=e^{\rho_i} \quad i = 1,2,...,d$
进行随机抽样得到动作 $a$ : $a_i\sim N(\hat{u_i},\hat{\sigma_i}^2)\quad i = 1,2,...,d$

3.2.5 添加辅助神经网络

在这里插入图片描述

策略网络为： $\pi(a|s;\theta^\mu,\theta^\rho)=\Pi_{i=1}^d\frac{1}{\sqrt{2\pi}\cdot\sigma_i}\cdot e^{-\frac{(a-\mu_i)^2}{2\sigma_i^2}} \\ log(\pi(a|s;\theta^\mu,\theta^\rho))=\sum_{i=1}^d[-log(\sigma_i)-\frac{(a-\mu_i)^2}{2\sigma_i^2}]+const\\log(\pi(a|s;\theta^\mu,\theta^\rho))=\sum_{i=1}^d[-\frac{\rho_i}{2}-\frac{(a-\mu_i)^2}{2\cdot e^{\rho_i}}]+const\\\log(\pi(a|s;\theta^\mu,\theta^\rho))=f(s,a;\theta)\quad \theta=(\theta^\mu,\theta^\rho)$
定义上述的 $f(s,a;\theta)$ 为辅助神经网络，则得到三个神经网络： $\mu(s;\theta^\mu)\quad 正态分布的均值\\\rho(s;\theta^\rho)\quad正态分布的对数方差\\f(s,a;\theta)\quad 辅助神经网络用于训练策略神经网络$
随机策略梯度为： $\frac{\partial log(\pi(a|s;\theta))}{\partial \theta}\cdot Q_\pi(s,a)\\ f(s,a;\theta)=log(\pi(a|s;\theta))+const\\g(a )=\frac{\partial f(s,a;\theta)}{\partial \theta}\cdot Q_\pi(s,a)$

3.2.6 状态价值函数的近似

使用reinforce算法: $u_t = r_t+\gamma\cdot r_{t+1}+...\\\theta\gets\theta+\beta\cdot\frac{\partial f(s,a;\theta)}{\partial \theta}\cdot u_t$
使用 A-C算法： $Q_\pi\sim q(s,a;W)\\\theta\gets\theta+\beta\cdot\frac{\partial f(s,a;\theta)}{\partial \theta}\cdot q(s,a;W)$