强化学习笔记(一) Model-Free Policy Evaluation

本文深入解析了model-free无模型学习的概念,介绍了MC算法(尤其是firstvisit MC与everyvisit MC及incremental MC的区别),并与TD算法进行对比,探讨了值函数迭代与策略函数迭代的差异。通过实例和课程资料,帮助读者理解在实际应用中如何选择和运用这两种关键的强化学习算法。
摘要由CSDN通过智能技术生成

目录

问题1:什么是model-free?

问题2:什么是MC算法?

问题3:first visit  MC与every visit MC有什么区别? 

 问题4:first visit MC、every visit MC 与incremental MC有什么区别吗?

问题5:TD算法与MC算法的区别?

 

嘚嘚嘚...唠叨小主驾到,哈哈,今天我们来复习一下,值函数迭代和策略函数迭代。首先,来看一下,三道题:

 这三道题是斯坦福大学课件中的题目,我们一起来看一下官方给的答案:

 官方解释的很清楚啦,唠叨小主就不过多的解释了。还有一个重点:值函数迭代和策略函数迭代的区别!!下面这张图取自周博磊老师的课件:

今天的任务是MC算法和TD算法的讲解,接下来,步入主题!

问题1:什么是model-free?

答:model-free,称为无模型学习。无模型学习不需要关于环境的信息,不需要搭建假的环境模型&

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值