无模型策略评估算法（Monte Carlo and Temporal Difference）

误伤这又何妨

已于 2023-09-24 10:43:14 修改

阅读量170

点赞数 6

分类专栏： Reinforcement Learning 文章标签：人工智能 pytorch python 开发语言机器学习

于 2023-09-23 20:25:36 首次发布

本文链接：https://blog.csdn.net/m0_61552056/article/details/133201230

版权

Reinforcement Learning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

MC和TD都是无模型策略模型，直接从episode experience中学习，第一次看的话会有些模棱两可。

在这里插入图片描述
接下来，我会展示MC(Monte Carlo) 和 TD(Temporal Difference)这两种算法之间的差异以及如何计算。如果你感兴趣的话，往下看吧！！！

MC On Policy Evaluation

Frist-Visit MC

import numpy as np

def back_Reward(t, S, R, gamma):
    if t == S.size-1:
        e = S[t]
        return R[e]
    else:
        e = S[t]
        return R[e]+gamma*back_Reward(t+1, S, R, gamma)

# initialize N, G
N = np.zeros(7)
G = np.zeros(7)
visit = np.zeros(7)
# a sample episode S, A, R
S = np.array([0, 1, 2, 3, 4])  # 访问顺序0-1-2-3-4-5
R = np.array([0, 0, 0, 0, 5])  # 对应reward
# 首次迭代
for t in range(0, 5):
    e = S[t]
    if visit[e]==0:
        N[e] += 1
        G[e] += back_Reward(t, S, R, gamma)
        visit[e] = 1
V = np.true_divide(G, N, out=np.zeros_like(G), where=N!=0)

对于MC来说，frist visit并没有做太多的操作。如果是第一次访问 $s$ ，就将 $G (s)$ 做一个累加和，最后再除以 $N (s)$ 以求平均。
$V^\pi = G(s)/N(s)$
当sample episode足够多时， $V^\pi$ 就无限接近于真实值，即具有无偏性。
当你运行程序时，会得到如下结果：
在这里插入图片描述
在这里我们能调的超参数只有一个： $\gamma$ 。 $\gamma$ 与 V 的对应关系如下：

$\gamma$	V(s)
0	[0. 0. 0. 0. 5. 0. 0.]
0.25	[0.0195 0.0781 0.3125 1.25 5. 0. 0. ]
0.5	[0.3125 0.625 1.25 2.5 5. 0. 0. ]
0.75	[1.5820 2.1093 2.8125 3.75 5. 0. 0. ]
1	[5. 5. 5. 5. 5. 0. 0.]

随着 $\gamma$ 的不断增大，模型会越来越重视长期收益，实验结果符合预期。

Every-Visit MC

Every-Visit 与 Frist-Visit 的算法逻辑几乎是一模一样，其区别也正是Every和Frist的区别。
对于Every-Visit而言，他不管之前是否访问过该状态，都会加和求平均。

此时，我们可以简化公式：
$N_{new}(s) = N_{old}(s)+1\\ V_{new}^\pi(s) = {V_{old}^\pi*N_{old}+G_{i, t}\over N_{new}}={V^\pi_{old}*(N_{new}-1)+G_{i, t}\over N_{new}}\\=V_{old}^\pi+{1\over N(s)}(G_{i, t}-V_{old}^\pi(s))$
用 $\alpha$ 代替得到更加具有普遍性的V(s)计算方法。
$N_{new}(s)=V^\pi_{old}+\alpha(G_{i, t}-V^\pi_{old}(s))$
当 $\alpha={1\over N(s)}$ 时，为Every-Visit MC。当 $\alpha > {1\over N(s)}$ 时，适用于非静态环境。
代码实现如下：

import numpy as np

def back_Reward(t, S, R, gamma):
    if t == S.size-1:
        e = S[t]
        return R[e]
    else:
        e = S[t]
        return R[e]+gamma*back_Reward(t+1, S, R, gamma)


gammas = np.array([0, 0.25, 0.5, 0.75, 1])
# a sample episode S, A, R
S = np.array([0, 1, 2, 3, 4])
R = np.array([0, 0, 0, 0, 5])

# 迭代
for gamma in gammas:
    # initialize N, G
    N = np.zeros(7)
    G = np.zeros(7)
    V = np.zeros(7)
    for t in range(0, 5):
        e = S[t]
        N[e] += 1
        G[e] += back_Reward(t, S, R, gamma)
    V = V+N*(G-V)
    print(V)

由于该sample episode无重复状态，因此结果和Frist-Visit MC一样。

无偏性讨论

在静态环境（符合马尔可夫链环境）下，Frist-Visit MC和every-Visit都可以保证状态相对独立，因此都具有无偏性；在非静态情况下，随着环境的动态变化，Every-Visitd MC的准确性可能会受到影响，而Frist-Visit MC仅仅计算第一次访问时的收益，因此每个时刻的状态相互独立，仍然具有无偏性。
_{注：无偏性指期望与真实值相等。}

TD for Estimating V

TD (Temporal Difference)将MC(Monte Carlo)和DP(Dynamic programming)结合起来，可以更加快速简便地计算 $V^\pi$ 。
DP中对 $G_{t}$ 的定义为：
$G_t = r_t + \gamma V^\pi(s')$
将其加入到MC中，就得到了下面这个公式。
$V^\pi(s_t) = V^\pi(s_t)+\alpha([r_t+\gamma V^\pi(s_{t+1})]-V^\pi(s_t))$

相较于Every-Visit MC而言，TD不用计算 $G_t$ ，减轻了计算负担；同时，TD可以在过程中同步计算V，不必等到过程结束才开始计算，因此TD的计算速度会比Every-Visit MC快很多。此外，TD不必设置episode，即适用于连续性任务。有这么多优点，那有什么缺点吗？
在这里插入图片描述
计算速度快通常意味着精度低，TD毫不例外。TD并不具有无偏性，这从公式中就能看出。
$\delta_t = \alpha([r_t+\gamma V^\pi(s_{t+1})]-V^\pi(s_t))$
_{注：代码就不展示了，和MC大差不差，偷个懒ing}

总结

\	MC	TD
no models	Y	Y
一致性	frist Y but every N	Y
无偏性	Y	N

误伤这又何妨

关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
无模型策略评估算法（Monte Carlo and Temporal Difference）

本文介绍了两种无模型策略（Monte Carlo和Temporal Different）的逻辑过程及代码实现，希望可以帮助到大家。
复制链接

扫一扫