【强化学习】四、无模型预测

Henry_Zhao10

已于 2023-08-23 15:51:59 修改

阅读量165

点赞数 1

分类专栏：强化学习文章标签：深度学习机器学习

于 2023-08-23 15:31:00 首次发布

本文链接：https://blog.csdn.net/Henry_Zhao10/article/details/132453625

版权

强化学习专栏收录该内容

12 篇文章 3 订阅

订阅专栏

四、无模型预测

1.蒙特卡罗强化学习Monte-Carlo Reinforcement Learning

MC方法可直接从分幕（episodes）的经验中学习

MC是无模型（Model-free）的算法：MDP的转换和奖励是未知的

MC从完整的episodes（回合）中学习

MC使用最简单的想法：价值（value）=平均回报（mean return）

注意：MC只能应用于分幕的MDP中，所有的episodes必须终止

蒙特卡罗策略评估

目标：在给定策略 $\pi$ 下，从一系列episodes经验中学习价值函数 $v_\pi$
$S_1, A_1, R_2, \dots,S_k \sim k$
回顾：回报是带折扣总奖励
$G_t=R_{t+1}+\gamma R_{t+2}+\ldots+\gamma^{T-1} R_T$
回顾：价值函数是回报的期望
$v_\pi(s)=\mathbb E_\pi[G_t \mid S_t=s]$
蒙特卡罗策略评估使用每个状态的平均回报来代替回报的期望

首次访问型（First-Visit）蒙特卡罗策略评估

目标：评估状态s

每幕中，状态s第一次出现时，进行如下操作一次

增加计数个数 $\leftarrow N(s)+1$
增加回报总和 $\leftarrow S(s)+G_t$
价值由平均回报估算 $V (s) = S (s) / N (s)$

根据大数定律： $V(s)\rightarrow V_\pi(s) \quad as \quad N(s) \rightarrow \infin$

每次访问型（Every-Visit）蒙特卡罗策略评估

目标：评估状态s

每幕中，状态s每出现一次时，进行如下操作一次

增加计数个数 $\leftarrow N(s)+1$
增加回报总和 $\leftarrow S(s)+G_t$
价值由平均回报估算 $V (s) = S (s) / N (s)$

根据大数定律： $V(s)\rightarrow V_\pi(s) \quad as \quad N(s) \rightarrow \infin$

累进式均值更新

序列 $x_1,x_2...$ 的平均值 $\mu_1,\mu_2,...$ 可以增量计算
$\mu_k=\mu_{k-1}+\frac{1}{k}(x_k-\mu_{k-1})$

累进式蒙特卡罗更新

在episode $S_1,A_1,R_2,...,R_T$ 后逐步更新 $V (s)$

对于每个具有回报 $G_t$ 的状态 $S_t$
$N(S_t) \leftarrow N(S_t) + 1 \\ V(S_t) \leftarrow V(S_t) + \frac{1}{N(S_t)}(G_t-V(S_t))$
在非平稳问题中，跟踪连续平均值（即忘掉旧episodes）可能很有用
$V\left(S_t\right) \leftarrow V\left(S_t\right)+\alpha\left(G_t-V\left(S_t\right)\right)$

2.时序差分学习（Temporal-Difference Learning）

TD方法可直接从经验中学习

TD是无模型的：不了解MDP转换/奖励

TD通过自举(bootstrapping)从不完整的episodes中学习，对于没有完成的幕也可以学习，这与蒙特卡罗不同，自举是指新的是根据旧的来进行学习

猜测episode的结果，同时持续更新这个猜测

MC和TD

目标：根据策略 $\pi$ 得到的经验学习价值函数 $v_\pi$

增量式every-visit蒙特卡罗

朝着实际回报 $G_t$ 的方向更新价值 $V(S_t)$ ， $G_t$ 是指整轮游戏结束后，才能算得的t时刻的回报，是一个能得到的确定的数

$V\left(S_t\right) \leftarrow V\left(S_t\right)+\alpha\left(G_t-V\left(S_t\right)\right)$

最简单的时序差分算法：TD(0)

朝着估计回报 $R_{t+1}+\gamma V(S_{t+1})$ 的方向更新 $V(S_t)$
$V\left(S_t\right) \leftarrow V\left(S_t\right)+\alpha\left(R_{t+1}+\gamma V\left(S_{t+1}\right)-V\left(S_t\right)\right)$
$\left(R_{t+1}+\gamma V\left(S_{t+1}\right)\right)$ 被称为TD target

$\delta_t=R_{t+1}+\gamma V\left(S_{t+1}\right)-V(S_t)$ 被称为TD error

自举： 猜测episode的结果，同时持续更新这个猜测，这里就是猜测 $V(S_{t+1})$ 来更新 $V(S_t)$

例子：开车回家

MC和TD的优点和缺点

TD可以在知道最终结果之前学习

TD可以在每一步之后在线学习
MC必须等到episode结束才能知道回报

TD可以在没有最终结果的情况下学习

TD可以从不完整的序列中学习
MC只能从完整序列中学习
TD在连续（非终止)环境中工作
MC仅适用于episode(终止)环境

偏差/方差的平衡

回报 $G_t=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-1} R_{t+T}$ 是 $v_\pi(S_t)$ 的无偏估计

真实的TD target $R_{t+1}+\gamma v_\pi\left(S_{t+1}\right)$ 是 $v_\pi(S_t)$ 的无偏估计

TD target $R_{t+1}+\gamma V\left(S_{t+1}\right)$ 是 $v_\pi(S_t)$ 的有偏估计

TD target $R_{t+1}+\gamma V\left(S_{t+1}\right)$ 的方差比回报 $G_t$ 低得多

回报取决于一系列随机的动作、转移与奖励
TD target取决于一个动作及其对应的转移与奖励

$v_\pi$ 是真实的价值函数， $V$ 是预测的价值函数，只有 $V$ 收敛了，才是真实的价值函数

MC和TD的优点和缺点(2)

MC具有高方差，零偏差

良好的收敛性
对初始值不太敏感
很容易理解和使用

MC方法具有高方差的原因是：我们在玩游戏的时候，游戏本身是有随机性的，所以我们可以把 $G_a$ 看成一个随机变量。因为我们每次到 $s_a$ 的时候，最后得到的 $G_a$ 其实是不一样的。我们看到同样的状态 $s_a$ ，最后到游戏结束的时候，因为游戏本身是有随机性的，玩游戏的模型可能也有随机性，所以我们每次得到的 $G_a$ 是不一样的，每一次得到的 $G_a$ 的差别其实会很大。为什么会很大呢？因为 $G_a$ 是很多个不同的步骤的奖励的和。假设我们每一个步骤都会得到一个奖励， $G_a$ 是从状态 $s_a$ 开始一直到游戏结束，每一个步骤的奖励的和。

TD方差低，但存在偏差

通常比MC更高效
TD(0)收敛至 $v_\pi(S_t)$
对初始值更敏感

MC和TD的优点和缺点(3)

TD利用了马尔可夫性

通常在马尔可夫环境中效率更高

MC没有利用马尔可夫性

通常在非马尔可夫环境中更有效

MC、TD、DP的比较

MC：

TD：

DP：

3.TD( $\lambda$ )

n步TD

让TD target看更多步未来的状态

考虑n步回报
$\begin{aligned} & n=1 \quad (TD) \quad G_t^{(1)}=R_{t+1}+\gamma V\left(S_{t+1}\right) \\ & n=2 \quad \quad \quad \quad G_t^{(2)}=R_{t+1}+\gamma R_{t+2}+\gamma^2 V\left(S_{t+2}\right) \\ & \vdots \\ & n=\infin \quad (MC) \quad G_t^{(\infty)}=R_{t+1}+\gamma R_{t+2}+\ldots+\gamma^{T-1} R_T \end{aligned}$
定义n步回报为：
$G_t^{(n)}=R_{t+1}+\gamma R_{t+2}+\ldots+\gamma^{n-1} R_{t+n}+\gamma^n V\left(S_{t+n}\right)$
n步时序差分算法：
$V\left(S_t\right) \leftarrow V\left(S_t\right)+\alpha\left(G_t^{(n)}-V\left(S_t\right)\right)$

TD( $\lambda$ )

$G_t^\lambda$ 整合了所有的n步回报 $G_t(n)$

加和时，使用权重 $(1-\lambda)\lambda^{n-1}$
$G_t^\lambda=(1-\lambda) \sum_{n=1}^{\infty} \lambda^{n-1} G_t^{(n)}$
得到 $TD(\lambda)$
$V\left(S_t\right) \leftarrow V\left(S_t\right)+\alpha\left(G_t^{(n)}-V\left(S_t\right)\right)$
$\lambda=0$ 时就是TD(0)， $\lambda=1$ 时就是MC