知识六：强化学习-价值函数的近似

Yunfeng Peng

于 2024-10-11 21:17:42 发布

阅读量256

点赞数 8

分类专栏：强化学习文章标签：动态规划算法机器学习人工智能神经网络

本文链接：https://blog.csdn.net/pengyunfenn/article/details/142863458

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

知识六：强化学习-价值函数的近似

6.1 介绍

6.1.1 大规模强化学习

我们希望用强化学习来解决一些大型问题，例如：
- Backgammon： $10^{20}$ 个状态
- Computer Go： $10^{170}$ 个状态
- Helicopter：连续状态空间
如何将强化学习应用到这类大型问题种，实现预测和控制呢？

6.1.2 价值函数逼近

大型 MDPs 的问题：
- 状态或者行动太多，无法全部存储在内存中
- 针对每一个状态学习得到价值也是一个很慢的过程
所以Q表方法用在大型 MDPs 方法是有问题的。
解决大型MDPs的方法：
- 用函数逼近来评估每个价值函数
- $\begin{aligned}\hat{v}(s,\mathbf{w})&\approx v_\pi(s)\\\mathrm{or~}\hat{q}(s,a,\mathbf{w})&\approx q_\pi(s,a)\end{aligned}$
- 可以用已知状态学到的价值函数插值出未见过状态的价值
- 用 MC 或 TD 学习来更新函数参数 $w$
- 解决了两个问题，是Q表过大的问题和所有状态和动作可见的问题。

6.1.3 价值函数逼近的类型

请添加图片描述

很多函数逼近方法可以被考虑，例如：
- 特征的线性组合
- 神经网络
- 决策树
- 最近邻法
- 傅里叶基/小波基

6.1.4 函数逼近器

考虑可微分函数逼近器，例如：
- 特征的线性组合
- 神经网络
- 决策树
- 最近邻法
- 傅里叶基/小波基
此外，我们需要一种适用于非平稳，非独立同分布数据的训练方法

6.2 增量式方法

一般使用梯度下降法求解非线性的最小二乘问题

6.2.1 用随机梯度下降进行价值函数逼近

目标:找到参数向量 $w$ ，最小化近似价值函数 $\hat{v}(S,W)$ 与真实价值函数 $\nu_{\pi}(s)$ 的均方差

$J(\mathbf{w})=\mathbb{E}_\pi\left[(v_\pi(S)-\hat{v}(S,\mathbf{w}))^2\right]$

通过梯度下降能够找到局部最小值

$\begin{aligned} \Delta w& =-\frac12\alpha\nabla_\mathbf{w}J(\mathbf{w}) \\ &=\alpha\mathbb{E}_\pi\left[(v_\pi(S)-\hat{v}(S,\mathbf{w}))\nabla_\mathbf{w}\hat{v}(S,\mathbf{w})\right] \end{aligned}$

使用随机梯度下降对梯度进行采样

$\Delta\mathbf{w}=\alpha(v_\pi(S)-\hat{v}(S,\mathbf{w}))\nabla_\mathbf{w}\hat{v}(S,\mathbf{w})$

期望更新等于全部梯度更新

6.2.2 特征向量

用特征向量表示状态

$\mathbf{x}(S)=\begin{pmatrix}\mathbf{x}_1(S)\\\vdots\\\mathbf{x}_n(S)\end{pmatrix}$

以直升机控制问题为例：
- 3D位置
- 3D速度（位置的变化量）
- 3D加速度（速度的变化量）

6.2.3 线性价值函数逼近

通过特征的线性组合表示值函数

$\hat{v}(S,\mathbf{w})=\mathbf{x}(S)^\top\mathbf{w}=\sum_{i=1}^n\mathbf{x}_j(S)\mathbf{w}_j$

参数为 $w$ 的目标函数是二次函数

$J(\mathbf{w})=\mathbb{E}_\pi\left[(v_\pi(S)-\mathbf{x}(S)^\top\mathbf{w})^2\right]$

随机梯度下降收敛于全局最优
更新规则

$\begin{aligned}\nabla_{\mathbf{w}}\hat{v}(S,\mathbf{w})&=\mathbf{x}(S)\\\Delta\mathbf{w}&=\alpha(v_{\pi}(S)-\hat{v}(S,\mathbf{w}))\mathbf{x}(S)\end{aligned}$

更新=步长 $\times$ 预测误差 $\times$ 特征

6.2.4 查表法

查表法是线性函数逼近的一种特殊情况
使用表查找特征
$\mathbf{x}^{table}(S)=\begin{pmatrix}\mathbf{1}(S=s_1)\\\vdots\\\mathbf{1}(S=s_n)\end{pmatrix}$
参数向量 $w$ 给出每个状态的值

$\hat v(S,\mathbf{w})=\begin{pmatrix}\mathbf{1}(S=s_1)\\\vdots\\\mathbf{1}(S=s_n)\end{pmatrix}\cdot\begin{pmatrix}\mathbf{w}_1\\\vdots\\\mathbf{w}_n\end{pmatrix}$

6.2.5 增量式预测算法

给定了真正的值函数 $V_\pi (s)$ ，该问题可以建模为一个典型的有监督学习问题
但是在 RL 中没有监督，只有奖励
实际计算时，使用target代替 $V_\pi (s)$
- 在 MC 中，target是回报 $G_{t}$ （梯度更新方法）
- $\Delta\mathbf{w}=\alpha(G_t-\hat{v}(S_t,\mathbf{w}))\nabla_\mathbf{w}\hat{v}(S_t,\mathbf{w})$
- 在TD（0）中target是TD target（半梯度更新方法）
- $\Delta\mathbf{w}=\alpha(R_{t+1}+\gamma\hat{v}(S_{t+1},\mathbf{w})-\hat{v}(S_t,\mathbf{w}))\nabla_\mathbf{w}\hat{v}(S_t,\mathbf{w})$

6.2.6 蒙特卡洛学习的价值函数逼近

回报 $G_{t}$ 实对真实价值 $V_\pi (s)$ 的无偏估计
因此，可以采用监督学习的方式使用“训练数据”

$\langle S_1,G_1\rangle,\langle S_2,G_2\rangle,...,\langle S_T,G_T\rangle$

例如，使用线性蒙特卡洛策略评估

$\Delta\mathbf{w}=\alpha(G_{t}-\hat{v}(S_{t},\mathbf{w}))\nabla_{\mathbf{w}}\hat{v}(S_{t},\mathbf{w})\\=\alpha(G_{t}-\hat{v}(S_{t},\mathbf{w}))\mathbf{x}(S_{t})$

蒙特卡洛评估收敛到局部最优（即使用非线性值函数逼近）

6.2.7 TD学习的价值函数逼近

TD-target $R_{t+1}+\gamma\hat{V}(S_{t+1},w)$ 是对真实价值 $V_\pi (S_t)$ 的有偏采样
仍然可以将监督学习应用于“训练数据”

$\langle S_1,R_2+\gamma\hat{v}(S_2,\mathbf{w})\rangle,\langle S_2,R_3+\gamma\hat{v}(S_3,\mathbf{w})\rangle,...,\langle S_{T-1},R_T\rangle$

例如，使用线性TD（0）

$\begin{aligned} \Delta w& =\alpha(R+\gamma\hat{v}(S^{\prime},\mathbf{w})-\hat{v}(S,\mathbf{w}))\nabla_\mathbf{w}\hat{v}(S,\mathbf{w}) \\ &=\alpha\delta\mathbf{x}(S) \end{aligned}$

线性TD（0）收敛（close）到全局最优

6.2.8 价值函数近似的控制

请添加图片描述

策略评估近似策略评估， $\hat{q}(\cdot,\cdot,w)\approx q_\pi$
策略优化 $ε - g ree d y$ 策略优化

6.2.9 Action-value函数逼近

近似action-value函数

$\hat{q}(S,A,\mathbf{w})\approx q_\pi(S,A)$

最小化估计的动作价值函数 $\hat{q}(S,A,w)$ 与真实的动作价值函数 $q_{\pi}(S,A)$ 之间的均方误差

$J(\mathbf{w})=\mathbb{E}_\pi\left[(q_\pi(S,A)-\hat{q}(S,A,\mathbf{w}))^2\right]$

用随机梯度下降方法找到局部最小值：

$\begin{aligned} -\frac{1}{2}\nabla_{\mathbf{w}}J(\mathbf{w})& =(q_\pi(S,A)-\hat{q}(S,A,\mathbf{w}))\nabla_\mathbf{w}\hat{q}(S,A,\mathbf{w}) \\ \Delta w& =\alpha(q_\pi(S,A)-\hat{q}(S,A,\mathbf{w}))\nabla_\mathbf{w}\hat{q}(S,A,\mathbf{w}) \end{aligned}$

6.2.10 线性Action-Value函数逼近

状态行为可以用特征向量表示：

$\mathbf{x}(S,A)=\begin{pmatrix}\mathbf{x}_1(S,A)\\\vdots\\\mathbf{x}_n(S,A)\end{pmatrix}$

通过特征的线性组合表示动作价值函数

$\hat{q}(S,A,\mathbf{w})=\mathbf{x}(S,A)^\top\mathbf{w}=\sum_{j=1}^n\mathbf{x}_j(S,A)\mathbf{w}_j$

用随机梯度下降方法进行更新

$\begin{aligned} \nabla_{\mathbf{w}}\hat{q}(S,A,\mathbf{w})& =\mathbf{x}(S,A) \\ \Delta w& =\alpha(q_{\pi}(S,A)-\hat{q}(S,A,\mathbf{w}))\mathbf{x}(S,A) \end{aligned}$

6.2.11 增量式控制算法

与预测算法类似，我们找到一个替代动作价值 $q_{\pi}(S,A)$ 的target
- 对于MC，target是回报 $G_t$
- $\Delta\mathbf{w}=\alpha(G_t-\hat q(S_t,A_t,\mathbf{w}))\nabla_\mathbf{w}\hat q(S_t,A_t,\mathbf{w})$
- 对于TD(0)，target是TD target $R_{t+1}+\gamma Q(S_{t+1},A_{t+1})$
- $\Delta\mathbf{w}=\alpha(R_{t+1}+\gamma\hat{q}(S_{t+1},A_{t+1},\mathbf{w})-\hat{q}(S_t,A_t,\mathbf{w}))\nabla_\mathbf{w}\hat{q}(S_t,A_t,\mathbf{w})$

6.3 批量方法

梯度下降很简单而且很吸引人
但是样本使用效率不高
批量方法找寻满足这批数据的最佳价值函数
根据智能体的经验(“ 训练数据 ”)

6.3.1 最小二乘预测

假设存在一个价值函数的近似 $\hat{v}(s,w)\approx v_\pi$
以及一段时期的、包含<状态、价值>的经验 $D$

$\mathcal{D}=\{\langle s_1,v_1^\pi\rangle,\langle s_2,v_2^\pi\rangle,...,\langle s_T,v_T^\pi\rangle\}$

最小二乘算法要求找到参数 $w$ ，使得目标值为 $v_{t}^{\pi}$ 和近似值$ \hat{v}(s,w)$之间的平方和误差最小：

$\begin{aligned} LS(\mathbf{w})& =\sum_{t=1}^{T}(v_{t}^{\pi}-\hat{v}(s_{t},\mathbf{w}))^{2} \\ &=\mathbb{E}_{\mathcal{D}}\left[(v^{\pi}-\hat{v}(s,\mathbf{w}))^{2}\right] \end{aligned}$

6.3.2 带有经验回放的随机梯度下降

给出包含<状态、价值>的经验D

$\mathcal{D}=\{\langle s_1,v_1^\pi\rangle,\langle s_2,v_2^\pi\rangle,...,\langle s_T,v_T^\pi\rangle\}$

Repeat:
- 从经验中采样状态、价值
- $\langle s,v^{\pi}\rangle\sim\mathcal{D}$
- 应用随机梯度下降更新
- $\Delta\mathbf{w}=\alpha(v^\pi-\hat{v}(s,\mathbf{w}))\nabla_\mathbf{w}\hat{v}(s,\mathbf{w})$
收敛至针对这段经历最小平方差的参数: