jsp 控制一个td的宽度_强化学习基础之TD-learning

本文介绍了TD-learning的基础,包括Sarsa和Q-learning算法,并通过图形对比和代码示例进行详细讲解。Sarsa是时间差分法的一种,结合了MC的sampling和DP的bootstrap,而Q-learning是off-policy control问题。文章提供了一个GitHub仓库链接,包含了完整的算法实现代码。
摘要由CSDN通过智能技术生成

写在前面一些无关紧要的话:印象中,这个专栏已经快五个月没更新过了,How time flies!当时本来应该把TD-learning这一块写完再停笔,但不知被什么事所打扰,遂忘却以致搁置到今日。至今仍然觉得写帖子不失为一种有效的学习方式,不仅方便他人浏览,而且每当自己忘记一些细节之时,重温起来亦很方便。故今天毅然决然写起了来岛国之后的第一篇技术帖。

言归正传,回到今天的主角时间差分法(TD-learning),这是一个大类,包含我们耳熟能详的Sarsa、Q-learning等,以及各种拓展变形:expected Sarsa、n-step Sarsa、double Q-learning等等。

Sarsa算法

Sarsa是典型的时间差分法,TD-learning结合了MCsampling方法和DPbootstrap方法,是空间复杂度和时间复杂度都最低的算法。与蒙特卡洛方法的相似之处在于二者均通过与环境交互得到的序列来估计值函数,不同之处在于蒙特卡洛方法在估计值函数时用了完整序列的长期回报,而TD法使用的是非完整序列的回报,对于一步TD法,则使用的是 使用的是当前回报和下一时刻的估计。

TD法对值函数更新的框架一般如下:

。其中,
被称作TD target项,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值