前两篇介绍了三种RL方法,DP,MC和TD,本篇进行一个总结和对比。
Backup
先来看看backup的区别:
DP
MC
TD
Bootstrapping & sampling
Bootstrapping指更新中包含估计值,sampling指是否用期望还是采样来更新
DP
Bootstrap, does not sample
MC
no Bootstrap, sample
TD
Bootstrap, sample
MC vs TD
TD 可以在每一步之后更新策略,并且不需要完整的episode,所以TD可以用于持续不终止的环境中。MC需要等一整个eposide结束之后才能更新,episode必须完整,只能用在eposide终止的时候。
MC是0 bias,high variance,TD是some bias,low variance。
MC中的return G t G_t Gt