MC方法与TD方法区别

强化学习中常用的更新方法包括MC和TD

MC方法:

其更新公式为 V(s) ← V(s) + α (G – V(s))

其中G为当前状态到episode截止所有reward之和,Q-learning base 的方法经常使用MC方法来进行更新。

MC方法是一个高方差无偏差的方法:

因为其更新是使用G来更新, G是一个真实从环境的值,需要获得完整的episode之后才计算得到,但获取这一条episode本身是一个概率较小的事件,所以这是一个高方差的更新,如果G是当前状态下获取之后所有奖励的期望,那么这个公式就是偏差和方差都为0的更新,但获取G的期望是一个很难的事情,需要遍历从当前状态所有episode的可能。

TD方法:

V(s)← V(s) + α (r + V(s’) – V(s))

在A2C算法中,critic采用上面的公式进更新,可以看到TD的更新方式使用估计值V(s’) + r 代替了G, 所以TD是一个有偏的方法, 从s到s’是一个概率较大的事件相较于MC方法获取整条序列, 所以说TD是一个低方差的方法。

高方差需要更多的样本来训练,偏差会导致不收敛或收敛结果较差。

上面是TD(0)的更新,TD(n)等同于MC的方法

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值