jsp 控制一个td的宽度_强化学习基础之TD-learning

最新推荐文章于 2023-05-12 20:57:54 发布

weixin_39719727

最新推荐文章于 2023-05-12 20:57:54 发布

阅读量563

点赞数

文章标签： jsp 控制一个td的宽度

本文链接：https://blog.csdn.net/weixin_39719727/article/details/112078198

版权

本文介绍了TD-learning的基础，包括Sarsa和Q-learning算法，并通过图形对比和代码示例进行详细讲解。Sarsa是时间差分法的一种，结合了MC的sampling和DP的bootstrap，而Q-learning是off-policy control问题。文章提供了一个GitHub仓库链接，包含了完整的算法实现代码。

摘要由CSDN通过智能技术生成

写在前面一些无关紧要的话：印象中，这个专栏已经快五个月没更新过了，How time flies！当时本来应该把TD-learning这一块写完再停笔，但不知被什么事所打扰，遂忘却以致搁置到今日。至今仍然觉得写帖子不失为一种有效的学习方式，不仅方便他人浏览，而且每当自己忘记一些细节之时，重温起来亦很方便。故今天毅然决然写起了来岛国之后的第一篇技术帖。

言归正传，回到今天的主角时间差分法（TD-learning），这是一个大类，包含我们耳熟能详的Sarsa、Q-learning等，以及各种拓展变形：expected Sarsa、n-step Sarsa、double Q-learning等等。

Sarsa算法

Sarsa是典型的时间差分法，TD-learning结合了MC的sampling方法和DP的bootstrap方法，是空间复杂度和时间复杂度都最低的算法。与蒙特卡洛方法的相似之处在于二者均通过与环境交互得到的序列来估计值函数，不同之处在于蒙特卡洛方法在估计值函数时用了完整序列的长期回报，而TD法使用的是非完整序列的回报，对于一步TD法，则使用的是使用的是当前回报和下一时刻的估计。

TD法对值函数更新的框架一般如下：

。其中，

被称作TD target项，