时序差分学习

时序差分学习(TD)是强化学习中关键的方法,融合了蒙特卡洛方法和动态规划的特点。TD方法能从经验中直接学习,无需环境模型,且能以自举方式更新估计值。本文深入讲解了TD预测,包括TD(0)的最优性,Sarsa和Q-learning等在线、离策略TD控制方法,强调了它们在解决强化学习问题中的应用和优势。
摘要由CSDN通过智能技术生成

第六章 时序差分学习

如果非要说一个强化学习中最核心并且新奇的方法,那么时序差分学习毫无疑问就是那种方法。TD方法是蒙特卡洛方法和动态规划思想的结合。所以TD方法有两个特点:一是可以直接从经验中学习,不需要环境模型;二是TD方法根据其他的估计来更新估计,也就是自举。时序差分学习,蒙特卡洛方法和动态规划三者之间关系的比较是强化学习中贯穿始终的主题。

6.1 TD预测

(1)Constant-α MC方法:

特点:1·常量α适合动态性问题 2,必须等到这一幕执行完成(得到Gt)才能进行估计。

(2)最简单的TD方法:

特点:只需要等一步,需要Rt+1 和V(St+1)的数值,Rt+1+rV(St+1)作为target对原有值函数进行更新。

下面是TD(0)程序框架:

从已学知识我们知道:

蒙特卡洛方法之所以是估计值是因为它利用采样的返回作为真实期望返回值。动态规划之所以说是自举方法是因为它利用V(St+1)的现有估计值,而不是真正的V(St+1)。而时序差分方法既有DP方法中的自举,又有蒙特卡洛方法中的采样。

TD error:

TD error 是指估计值和现有值之间的偏差。如果在一个片段中,值函数始终没有发生变化,那么蒙特卡洛误差可以用TD error来表示:

6.2 TD预测方法的优点

相对于DP方法来说,TD方法的优点是它不需要环境模型,不需要回报和下一个状态的可能性分配。

相对于蒙特卡罗方法,TD方法的优点是它能在线,以增量的方式学习。而蒙特卡洛方法只能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值