Lecture 4: Model-Free Prediction

1.Monte-Carlo Reinforcement Learning

   a)MC方法直接从经历中的episodes中学习

   b)MC方法是无模型的,

   c)从完整的episodes中学习:而不是走一步学学一步(bootstrapping)

   d)注意:只能将MC方法应用到episodic MDPs,而且所有的episodes必须终止。

2.Temporal-Di↵erence Learning

   a)TD方法直接从经历中的episodes中学习

   b)MC方法是无模型的

   c) 从不完整的episodes中学习,by bootstrapping 

   d) TD从一个猜测中更新猜测

3.TD能在获知最终结果前学习

   a) TD能在每步中在线学习

   b) MC必须等到一个episode结束才能获知最终结果

   TD能够在没有最终输出的过程中学习

     a) TD能够从不完整的雪猎中学习

     b) MC只能从完整的序列中学习

     c) TD 在连续的环境中工作

     d)MC只能在有终结序列的环境中工作

4.   是 的无偏估计,

       

      

5.TD利用了Markov属性,通常在Markov环境中更为有效

    MC没有利用Markov属性,通常在非Markov环境中更加有效

6. TD( λ ) 与MC都只能用于完整的episodes

 

 

      

 

转载于:https://www.cnblogs.com/--CYH--/p/6711059.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值