基于策略的深度强化学习：理论部分

溯源006

已于 2024-04-15 20:41:02 修改

阅读量148

点赞数 2

分类专栏：强化学习文章标签：人工智能深度学习

于 2023-09-22 11:59:49 首次发布

本文链接：https://blog.csdn.net/l963852k/article/details/133158643

版权

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1 策略（policy）：

策略是智能体的动作模型，它决定了智能体的动作。它其实是一个函数，用于把输入的状态变成动作。智能体会用策略来选取下一步的动作：
在这里插入图片描述
策略可以分为两种：

2 策略函数

上一篇文章DQN讲到最优动作价值函数 $Q_∗(s,a)$ 可以用来做控制，显然策略函数 $\pi(a|s)$ 也可以用来做控制.
基于价值的深度强化学习：DQN
然后就会有下面的问题：
在这里插入图片描述

3 目标函数

策略函数可以作为actor与环境交互，形成轨迹 $\tau$
在这里插入图片描述

给定策略网络的参数 $\theta$ ，就可以计算某个轨迹 $\tau$ 发生的概率为：
在这里插入图片描述
在交互的过程中还会产生奖励：

对于一条完整的轨迹𝜏的奖励𝑅(𝜏)：

显然轨迹 $\tau$ 的分布服从 $p_\theta(\tau)$ ，既然 $R(\tau)$ 是一个随机变量，那么其期望：

显然，我们希望 $\overline{R}_\theta$ 越大越好，所以目标函数是：
$\quad \overline{R}_\theta$

4 求梯度

需要用到梯度上升来进行参数更新：
在这里插入图片描述

接下来的问题就是怎么计算目标函数的梯度的问题：
在这里插入图片描述
将前面 $p_\theta(\tau)$ 的公式带入 $\nabla log p_\theta(\tau)$ 得到：

从 $p_\theta(\tau)$ 中采样N个轨迹 $\tau$ (这个过程其实就是基于当前策略网络𝜋(𝑎|𝑠;𝜃)与环境交互，获取N条轨迹)：

把前面的串起来就是：
在这里插入图片描述
对此进行一个直观解释就是：

5 基于策略的深度强化学习算法1

基于上面的内容，形成初步的基于策略的强化学习算法：
在这里插入图片描述

6 优势函数

上面的算法的其中一个问题在于调节粒度太粗了：对于同一条轨迹，肯定有的动作好，有的动作坏。但是如果按照上面的算法，同一条轨迹内的 $R(\tau^n)$ 是一样的，导致不管是好的还是坏的动作都统一增加概率或者减小概率。
所以我们希望 $R(\tau^n)$ 是和状态与动作相关的，而不是整条轨迹，我们把这个可以记作 $A(s_t,a_t)$ ，把他称之为优势函数。如果这个优势函数带参数，可以写作 $A^\omega (s_t,a_t)$
优势函数的意义是，假设我们在某一个状态 $s_t$ 执行某一个动作 $a_t$ ，相较于其他可能的动作， $a_t$ 有多好。