【强化学习的数学原理】第八课：值函数近似

最新推荐文章于 2024-09-06 10:38:06 发布

♚℡灬

最新推荐文章于 2024-09-06 10:38:06 发布

阅读量179

点赞数

分类专栏：强化学习文章标签：算法机器学习人工智能

本文链接：https://blog.csdn.net/qq_44044341/article/details/134103384

版权

强化学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

【例子】

在这里插入图片描述

我们目前使用的都是state value表格形式

优点：直观易分析
缺点：没法处理大的和连续的state空间或action空间

假设我有一些状态 $s_1, \ldots, s_{|\mathcal{S}|}$ ，他们的state value是 $v_\pi\left(s_1\right), \ldots, v_\pi\left(s_{|\mathcal{S}|}\right)$ ，其中 $\pi$ 是给定的策略。假设 $|\mathcal{S}|$ 很大我们希望用一个曲线来代表这些点：

在这里插入图片描述

首先我们用直线拟合
$\hat{v}(s, w)=a s+b=\underbrace{[s, 1]}_{\phi^T(s)} \underbrace{\left[\begin{array}{c} a \\ b \end{array}\right]}_w=\phi^T(s) w$
- $w$ ：参数向量
- $\phi(s)$ ：特征向量
- $\hat{v}(s, w)$ ：对 $w$ 的一个线性的关系
- 其减少了存储的state value，但是近似是不精确的。
使用二阶曲线拟合
$\hat{v}(s, w)=a s^2+b s+c=\underbrace{\left[s^2, s, 1\right]}_{\phi^T(s)} \underbrace{\left[\begin{array}{c} a \\ b \\ c \end{array}\right]}_w=\phi^T(s) w .$
- 增加了存储的值，但是拟合的精度提高了
使用更高阶的曲线拟合，使得拟合更好但是参数增加

【状态值估计算法】

✌目标函数：

目标： $v_\pi(s)$ 是真值， $\hat{v}(s, w)$ 是估计的值，我们的目标就是使估计的值接近真值。（当函数形式确定的时候我们主要找到最优的 $w$ 参数使得其接近 $v_\pi(s)$ ）

定义目标函数：
$J(w)=\mathbb{E}\left[\left(v_\pi(S)-\hat{v}(S, w)\right)^2\right] .$

我们目标找到最优的 $w$ 优化这个 $J (w)$
s获得：
- 平均分布：给每个状态求平均的权重都是一样的 $/|\mathcal{S}|$
  
  目标函数变成：
  $J(w)=\mathbb{E}\left[\left(v_\pi(S)-\hat{v}(S, w)\right)^2\right]=\frac{1}{|\mathcal{S}|} \sum_{s \in \mathcal{S}}\left(v_\pi(s)-\hat{v}(s, w)\right)^2$
- 平稳分布： $\left\{d_\pi(s)\right\}_{s \in \mathcal{S}}$ 为 $s$ 的概率，其中每一个值 $d_\pi(s) \geq 0$ 并且 $\sum_{s \in \mathcal{S}} d_\pi(s)=1$
  
  目标函数变成：
  $J(w)=\mathbb{E}\left[\left(v_\pi(S)-\hat{v}(S, w)\right)^2\right]=\sum_{s \in \mathcal{S}} d_\pi(s)\left(v_\pi(s)-\hat{v}(s, w)\right)^2$

✌优化算法：

为了最小化 $J (w)$ ，我们可以使用梯度下降法：
$w_{k+1}=w_k-\alpha_k \nabla_w J\left(w_k\right)$
计算：
$\begin{aligned} \nabla_w J(w) & =\nabla_w \mathbb{E}\left[\left(v_\pi(S)-\hat{v}(S, w)\right)^2\right] \\ & =\mathbb{E}\left[\nabla_w\left(v_\pi(S)-\hat{v}(S, w)\right)^2\right] \\ & =2 \mathbb{E}\left[\left(v_\pi(S)-\hat{v}(S, w)\right)\left(-\nabla_w \hat{v}(S, w)\right)\right] \\ & =-2 \mathbb{E}\left[\left(v_\pi(S)-\hat{v}(S, w)\right) \nabla_w \hat{v}(S, w)\right] \end{aligned}$
这里我们需要计算一个均方，我们可以使用随机梯度进行替代：
$w_{t+1}=w_t+\alpha_t\left(v_\pi\left(s_t\right)-\hat{v}\left(s_t, w_t\right)\right) \nabla_w \hat{v}\left(s_t, w_t\right),$
这里面涉及到 $v_\pi(s_t)$ ，我们有两种方法进行代替：

蒙特卡洛方法：用 $g_t$ 作为 $v_\pi(s_t)$ 的估计值
$w_{t+1}=w_t+\alpha_t\left(g_t-\hat{v}\left(s_t, w_t\right)\right) \nabla_w \hat{v}\left(s_t, w_t\right) .$
TD learning：
$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma \hat{v}\left(s_{t+1}, w_t\right)-\hat{v}\left(s_t, w_t\right)\right] \nabla_w \hat{v}\left(s_t, w_t\right)$

✌函数的选择：

$\hat{v}(s, w) \longrightarrow V_\pi$

第一种：线性函数
$\hat{v}(s, w)=\phi^T(s) w$
- 由于线性函数我们有了其梯度 $\nabla_w \hat{v}(s, w)=\phi(s)$
- 将其带到TD learning中得到：也叫做TD-Linear
  $\begin{aligned} &w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma \hat{v}\left(s_{t+1}, w_t\right)-\hat{v}\left(s_t, w_t\right)\right] \nabla_w \hat{v}\left(s_t, w_t\right)\\ &w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma \phi^T\left(s_{t+1}\right) w_t-\phi^T\left(s_t\right) w_t\right] \phi\left(s_t\right) \end{aligned}$
  - 劣势：需要有很好的特征向量
  - 优点：理论好分析，具有比较强的表征能力
第二种：神经网络逼近函数

✌例子说明：

在这里插入图片描述

给定策略对任何的 $s, a$ 其 $\pi(a \mid s)=0.2$
目标：估计state values在这个策略
参数： $r_{\text {forbidden }}=r_{\text {boundary }}=-1, r_{\text {target }}=1$ , $\gamma=0.9$
真实结果：
近似：我们有500个episodes，每个episodes有500步，每个episode出发是随机选择的且服从均匀分布

通过TD-Table绘制：

TD-Linear：
- 特征向量选择：
  $\phi(s)=\left[\begin{array}{l} 1 \\ x \\ y \end{array}\right] \in \mathbb{R}^3$
- 近似状态值：
  $\hat{v}(s, w)=\phi^T(s) w=[1, x, y]\left[\begin{array}{l} w_1 \\ w_2 \\ w_3 \end{array}\right]=w_1+w_2 x+w_3 y$
- 通过TD-Linear进行估计：
  
  最终收敛了但是最终值不是0，我们后续可以通过高阶进行拟合
High-order feater vectors：
- 特征向量选择：
  $\phi(s)=\left[1, x, y, x^2, y^2, x y\right]^T \in \mathbb{R}^6$
- 近似状态值：
  $\hat{v}(s, w)=\phi^T(s) w=w_1+w_2 x+w_3 y+w_4 x^2+w_5 y^2+w_6 x y$
- 拟合结果：

✌总结：

从目标函数出发，为真实的state value和估计的state value的加权平均：
$J(w)=\mathbb{E}\left[\left(v_\pi(S)-\hat{v}(S, w)\right)^2\right]$
对算法使用梯度下降进行优化：
$w_{t+1}=w_t+\alpha_t\left(v_\pi\left(s_t\right)-\hat{v}\left(s_t, w_t\right)\right) \nabla_w \hat{v}\left(s_t, w_t\right)$
由于 $v_\pi(s_t)$ 不知道，对其进行替代（这里不严谨可能会有问题）：
$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma \hat{v}\left(s_{t+1}, w_t\right)-\hat{v}\left(s_t, w_t\right)\right] \nabla_w \hat{v}\left(s_t, w_t\right)$

【Sarsa 函数近似】

$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma \hat{q}\left(s_{t+1}, a_{t+1}, w_t\right)-\hat{q}\left(s_t, a_t, w_t\right)\right] \nabla_w \hat{q}\left(s_t, a_t, w_t\right)$

🤞Sarsa 函数伪代码：

对于每个episode，如果当前 $s_t$ 不是target state：
- 依据 $\pi_t\left(s_t\right)$ 执行 $a_t$ ，生成 $r_{t+1}, s_{t+1}$ 然后依据 $\pi_t\left(s_{t+1}\right)$ 执行 $a_{t+1}$
- value update：
  $\begin{aligned} & w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma \hat{q}\left(s_{t+1}, a_{t+1}, w_t\right)-\hat{q}\left(s_t, a_t, w_t\right)\right] \nabla_w \hat{q}\left(s_t, a_t, w_t\right) \end{aligned}$
- policy update：
  $\begin{aligned} & \pi_{t+1}\left(a \mid s_t\right)=1-\frac{\varepsilon}{|\mathcal{A}(s)|}(|\mathcal{A}(s)|-1) \text { if } a=\arg \max _{a \in \mathcal{A}\left(s_t\right)} \hat{q}\left(s_t, a, w_{t+1}\right) \\ & \pi_{t+1}\left(a \mid s_t\right)=\frac{\varepsilon}{|\mathcal{A}(s)|} \text { otherwise } \end{aligned}$

【Q-learning 函数近似】

$w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma \max _{a \in \mathcal{A}\left(s_{t+1}\right)} \hat{q}\left(s_{t+1}, a, w_t\right)-\hat{q}\left(s_t, a_t, w_t\right)\right] \nabla_w \hat{q}\left(s_t, a_t, w_t\right)$

🤞Q-learning 函数伪代码【on-policy】：

对每个episode，如果当前 $s_t$ 不是目标状态：
依据 $\pi_t\left(s_t\right)$ 执行 $a_t$ ，生成 $r_{t+1}, s_{t+1}$ 然后生成 $r_{t+1},s_{t+1}$
value update：
$\begin{aligned} & w_{t+1}=w_t+\alpha_t\left[r_{t+1}+\gamma \max _{a \in \mathcal{A}\left(s_{t+1}\right)} \hat{q}\left(s_{t+1}, a, w_t\right)-\hat{q}\left(s_t, a_t, w_t\right)\right] \nabla_w \hat{q}\left(s_t, a_t, w_t\right) \end{aligned}$
policy update：
$\begin{aligned} & \pi_{t+1}\left(a \mid s_t\right)=1-\frac{\varepsilon}{|\mathcal{A}(s)|}(|\mathcal{A}(s)|-1) \text { if } a=\arg \max _{a \in \mathcal{A}\left(s_t\right)} \hat{q}\left(s_t, a, w_{t+1}\right) \\ & \pi_{t+1}\left(a \mid s_t\right)=\frac{\varepsilon}{|\mathcal{A}(s)|} \text { otherwise } \end{aligned}$

【Deep Q-learning】

Deep Q-learning也叫做deep Q-network（DQN）：

目标函数：
$J(w)=\mathbb{E}\left[\left(R+\gamma \max _{a \in \mathcal{A}\left(S^{\prime}\right)} \hat{q}\left(S^{\prime}, a, w\right)-\hat{q}(S, A, w)\right)^2\right]$
梯度计算：假设：
$\doteq R+\gamma \max _{a \in \mathcal{A}\left(S^{\prime}\right)} \hat{q}\left(S^{\prime}, a, w\right)$
引入了两个函数：

第一个网络（main network）： $\hat{q}(s, a, w)$ ，参数是 $w$
第二个网络（target network）： $\hat{q}\left(s, a, w_T\right)$ ，参数是 $w_T$

$J=\mathbb{E}\left[\left(R+\gamma \max _{a \in \mathcal{A}\left(S^{\prime}\right)} \hat{q}\left(S^{\prime}, a, w_T\right)-\hat{q}(S, A, w)\right)^2\right]$

基本思想：刚开始两个是一样的，首先保持 $w_T$ 不动，然后更新 $w$ ，等更新一段时间 $w$ 后将 $w$ 赋值给 $w_T$ 一直往复直到达到最优

于是它的梯度为：

在这里插入图片描述

🤞经验回放：

我们在收集顺序的时候是有一定顺序的，我们将他们放到一个集合中 $\mathcal{B} \doteq\left\{\left(s, a, r, s^{\prime}\right)\right\}$ ，每次我们在训练神经网络的时候我们从回放缓冲器中抽取一小批随机样本（均匀分布，每个概率相等），这就叫做经验回放，因为经验已经在那了。

问题：我们在拿的时候为什么服从均匀分布？

回答：
$J=\mathbb{E}\left[\left(R+\gamma \max _{a \in \mathcal{A}\left(S^{\prime}\right)} \hat{q}\left(S^{\prime}, a, w\right)-\hat{q}(S, A, w)\right)^2\right]$

$\sim d:(S, A)$ 是一个索引，随机变量
$\sim p(R \mid S, A), S^{\prime} \sim p\left(S^{\prime} \mid S, A\right): R$ 和 $S$ 由系统模型决定

使用均匀分布可以打破不同数据之间的关联。

🤞Deep Q-learning 函数伪代码【off-policy】：

假设有策略 $\pi_b$ ，产生很多buffer $\mathcal{B}=\left\{\left(s, a, r, s^{\prime}\right)\right\}$
1. 从replay buff中随机获得一些采样
2. 对采样做处理计算目标值 $y_T=r + \gamma \max _{a \in \mathcal{A}\left(s^{\prime}\right)} \hat{q}\left(s^{\prime}, a, w_T\right)$
3. 更新main network来最小化 $\left(y_T-\hat{q}(s, a, w)\right)^2$
当C次后 $w_T=w$

【总结】

首先给出曲线拟合的例子，提出function
然后揭示value function approximation思想
最后介绍了两个算法，把Sarsa、Q-learning相结合
最后提出了Deep Q-learning

♚℡灬

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【强化学习的数学原理】第八课：值函数近似

【例子】我们目前使用的都是state value表格形式优点：直观易分析缺点：没法处理大的和连续的state空间或action空间假设我有一些状态s1,…,s∣S∣s_1, \ldots, s_{|\mathcal{S}|}s1,…,s∣S∣，他们的state value是vπ(s1),…,vπ(s∣S∣)v_\pi\left(s_1\right), \ldots, v_\pi\left(s_{|\mathcal{S}|}\right)vπ(s1),…,vπ(s∣S∣)，其中π\p
复制链接

扫一扫

专栏目录