深度增强学习David Silver（四）——Model-Free Prediction

最新推荐文章于 2021-02-22 21:04:53 发布

abandon34209

最新推荐文章于 2021-02-22 21:04:53 发布

阅读量1.8k

点赞数 1

分类专栏： DRL

本文链接：https://blog.csdn.net/cs123951/article/details/71698800

版权

DRL 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

本节课主要介绍：

Monte-Carlo Learning
Temporal-Difference Learning
$TD(\lambda)$

Lecture03讲到了已知环境的MDP，也就是做出行动之后知道到达哪个状态及奖励，但是现实中大部分情况下状态和奖励是未知的，这种情况称为model-free，即环境模型未知。本节课探讨prediction，估计未知环境的MDP的价值函数，下节课讲control。

Monte-Carlo Learning

Monte-Carlo是不知道MDP的转移函数及奖励，直接从过去的episode中进行学习的方法。一个episode指从开始到结束： $S_1,A_1,R_1,...,S_k$ 。

MC学习完整的过程，没有bootstrap，也就是要等一个episode完成了，MC才开始学习。
之前讲到return $G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-1}R_T$ ，并且价值函数等于return的期望： $v_\pi(s)=\sf{E}_\pi[G_t|S_t=s]$ 。MC估计的价值等于return的平均值。平均值和期望的差别在于：平均值是一个统计学概念，是实验后根据实际结果统计得到的样本的平均值；期望是一个概率论概率，是实验前根据概率分布“预测”的样本的平均值。

MC的状态s的价值评估过程如下：
for state $s$ in an episode：
　for time-step t：
　　 $N(s) \leftarrow N(s)+1$
　　 $S(s) \leftarrow S(s)+G_t$
　　 $V(s) = S(s)/N(s)$
$V(S_t)$ 还可以用以下方式进行更新：

V(St)←V(St)+1N(St)(Gt−V(St)) $V(S_t) \leftarrow V(S_t)+\frac{1}{N(S_t)}(G_t-V(S_t))$
在某些不稳定的问题中，可以用

α $\alpha$ 更新：

V(St)←V(St)+α(Gt−V(St)) $V(S_t) \leftarrow V(S_t)+\alpha(G_t-V(S_t))$
当经过足够的循环，

N(s)→∞ $N(s) \rightarrow \infty$ ，

V(s)→vπ(s) $V(s) \rightarrow v_\pi(s)$

Temporal-Difference Learning

Temporal-Difference也不知道MDP的转移函数及奖励，但是它不需要等episode结束就可以学习。
TD的目标是 $R_{t+1}+\gamma V(S_{t+1})$ ，是 $v_\pi(S_t)$ 的无偏差估计， $G_t$ 也是 $v_\pi(S_t)$ 的无偏差估计，其中 $R_{t+1}+\gamma V(S_{t+1})$ 的方差比 $G_t$ 低： $R_{t+1}+\gamma V(S_{t+1})$ 依赖于多次随机的动作、转移、奖励，而 $G_t$ 只依赖于一次随机的动作、转移、奖励。TD的误差(error)是 $\delta_t= R_{t+1}+\gamma V(S_{t+1})-V(S_t)$ 。

比较

比较项目	Monte-Carlo	Temporal-Difference
相同点	从经验池中学习；model-free；	从经验池中学习；model-free；
不同点	从完整的episode中学习，没有bootstrap；价值=return的均值；根据真实的return $G_t$ 更新 $V(S_t)$	从不完整的episode，使用bootstrap；基于估计的值更新另一个值；根据估计的返回值 $R_{t+1}+\gamma V(S_{t+1})$ 更新 $V(S_t)$
优缺点	高方差，零误差（因为根据真实值来计算的）；具有很好的收敛效果；对初始值不敏感；在non-Markov环境中比较高效	低方差，有误差；比MC高效； TD(0)收敛到 $v_\pi(s)$ ；对初始值更敏感；充分利用了Markov性质，在Markov环境中比较高效

以下是MC、TD和DP的对比：
这里写图片描述

比较	MC	TD	DP
bootstrap:update involves an estimate	no	yes	yes
sample:update samples an expectation	yes	yes	no

TD( $\lambda$ )

定义经过n步之后的return和价值函数：

G(n)t=Rt+1+γRt+2+...+γn−1Rt+n+γnV(St+n) $G_t^{(n)}=R_{t+1}+\gamma R_{t+2}+...+\gamma^{n-1}R_{t+n}+\gamma^nV(S_{t+n})$

V(St)←V(St)+α(G(n)t−V(St)) $V(S_t)\leftarrow V(S_t)+\alpha (G_t^{(n)}-V(S_t))$

λ $\lambda$ -return

Gλt $G_t^\lambda$ 使用几何权值

(1−λ)λn−1 $(1-\lambda)\lambda^{n-1}$ 将所有的n-step return加起来：

G λ t = (1 - λ) \sum n = 1 \infty λ n - 1 G (n) t

$G_t^\lambda=(1-\lambda)\sum_{n=1}^{\infty}\lambda^{n-1}G_t^{(n)}$
其中权值相加等于1：

(1−λ)+(1−λ)λ+(1−λ)λ2+…+(1−λ)λn=1+λn≈1 $(1-\lambda)+(1-\lambda)\lambda+(1-\lambda)\lambda^2+…+(1-\lambda)\lambda^n =1+\lambda^n\approx1$

V(St)←V(St)+α(Gλt−V(St)) $V(S_t)\leftarrow V(S_t)+\alpha (G_t^{\lambda}-V(S_t))$

$TD(\lambda)$ 分为forward-view和backward-view。Forward-view $TD(\lambda)$ 向前看，往未来的方向更新信息，前面讲的就是forward-view。而Backward-view $TD(\lambda)$ 根据已发生的事情更新信息，和TD-error $\delta_t$ 和eligibility trace $E_t(s)$ 成比例。

δt=Rt+1+γV(St+1)−V(St) $\delta_t=R_{t+1}+\gamma V(S_{t+1})-V(S_t)$

V(s)←V(s)+αδtEt(s) $V(s)\leftarrow V(s)+\alpha \delta_t E_t(s)$
当

λ=0 $\lambda=0$ 时，只更新当前状态：

E t (s) = 1 (S t = s)

$E_t(s)=1(S_t=s)$
假设在一个episode中，在时间k，经过状态s，则：

E t (s) = γ E t - 1 (s) + 1 (S t = s) = {0 (γ λ) t - k if t < k if t \geq k

$\begin{align}E_t(s) & =\gamma E_{t-1}(s)+1(S_t=s)\\ & =\begin{cases}0&\text{if t $\lt$ k }\\ (\gamma \lambda)^{t-k}&\text{if t $\ge$ k }\end{cases} \end{align}$
此时online的更新累加的error为：

\sum t = 1 T α δ t E t (s) = α \sum t = k T (γ λ) t - k δ t = α (G λ k - V (S k))

$\sum_{t=1}^{T}\alpha \delta_t E_t(s)=\alpha \sum_{t=k}^{T}(\gamma \lambda)^{t-k}\delta_t=\alpha (G_k^\lambda-V(S_k))$

TD(1) $TD(1)$ 近似于Monte-Carlo，如果价值函数更新是offline，那么

TD(1) $TD(1)$ 就是MC。

updates分为offline和online：

Offline的更新在一个episode里面累加，但是只在episode结束后应用；对于offline更新的和，forward-view和backward-view $TD(\lambda)$ 相等：

$\sum_{t=1}^T \alpha \delta_t E_t(s)=\sum_{t=1}^T \alpha (G_t^\lambda-V(S_t))1(S_t=s)$
Online的更新在一个episode的每一步应用。forward-view和backward-view $TD(\lambda)$ 略有不同。
Exact online $TD(\lambda)$ achieves perfect equivalence.