Lecture 4: Model-Free Prediction

最新推荐文章于 2021-02-01 17:53:15 发布

weixin_30326745

最新推荐文章于 2021-02-01 17:53:15 发布

阅读量91

点赞数

原文链接：http://www.cnblogs.com/--CYH--/p/6711059.html

版权

1.Monte-Carlo Reinforcement Learning

a)MC方法直接从经历中的episodes中学习

b)MC方法是无模型的，

c)从完整的episodes中学习：而不是走一步学学一步（bootstrapping）

d)注意：只能将MC方法应用到episodic MDPs，而且所有的episodes必须终止。

2.Temporal-Di↵erence Learning

a）TD方法直接从经历中的episodes中学习

b)MC方法是无模型的

c) 从不完整的episodes中学习，by bootstrapping

d) TD从一个猜测中更新猜测

3.TD能在获知最终结果前学习

a) TD能在每步中在线学习

b) MC必须等到一个episode结束才能获知最终结果

TD能够在没有最终输出的过程中学习

a) TD能够从不完整的雪猎中学习

b) MC只能从完整的序列中学习

c) TD 在连续的环境中工作

d)MC只能在有终结序列的环境中工作

4. 是的无偏估计，

5.TD利用了Markov属性，通常在Markov环境中更为有效

MC没有利用Markov属性，通常在非Markov环境中更加有效

6. TD( λ ) 与MC都只能用于完整的episodes

转载于:https://www.cnblogs.com/--CYH--/p/6711059.html

weixin_30326745

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lecture 4: Model-Free Prediction

1.Monte-Carlo Reinforcement Learning a)MC方法直接从经历中的episodes中学习 b)MC方法是无模型的， c)从完整的episodes中学习：而不是走一步学学一步（bootstrapping） d)注意：只能将MC方法应用到episodic MDPs，而且所有的episodes必须终止。2.Temporal-Di↵er...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。