如何理解MC(n-steps)的方差大,TD-1-steps方差小?
前言:
在多步中,我们需要考虑下面多步的动作和状态,随机性比较大。每次获取的轨迹都可能不一样,另外多步的值的绝对值也比较大,因此方差会随之增大。
但是价值函数v(s)的定义就是回报(return)-G_t的期望,即如果我们采样足够多的轨迹,他们的平均,就是v(s),它的偏差为0;
而在1-step中,我们只有下一步的信息,比如N个不同的动作,那么状态值函数为
V
(
s
)
=
1
N
∑
n
=
1
N
Q
(
s
,
a
n
)
V(s)=\frac{1}{N}\sum_{n=1}^NQ(s,a_n)
V(s)=N1∑n=1NQ(s,an)
如果我下一步的值