Incremental multi-step Q-learning 笔记

最新推荐文章于 2022-04-20 15:42:27 发布

强殖装甲凯普

最新推荐文章于 2022-04-20 15:42:27 发布

阅读量300

点赞数

分类专栏：论文笔记文章标签：动态规划算法机器学习强化学习

本文链接：https://blog.csdn.net/qq_38163755/article/details/115130952

版权

本文详细介绍了强化学习中的TD(λ)算法和Q(λ)-学习，讨论了λ参数在bias和variance之间的平衡，以及在不同任务中的优势。TD(λ)提供了一种在事件未结束时进行更新的方法，适用于连续性任务。Q(λ)-learning结合了TD(λ)的返回和Q-learning的价值估计，展现出更好的鲁棒性。在实际应用中，λ的选择对性能至关重要，作者建议在某些任务中使用λ=0.3。

摘要由CSDN通过智能技术生成

前言

这篇文章介绍了Q(lambda)算法。资格迹这类算法网上有很多资料，但大都是sutton书里的，看完往往不知道怎么结合到深度里，特别是TD(lambda)。这篇文章里有一些化简得到的公式，借助它们可以方便地在深度里实现TD(lambda)和Q(lambda)。此博客也相当于在介绍资格迹。

此文章作者2014年在researchgate上传了一个，相比1996年的内容略有出入，本文结合了两篇并对部分证明进行了补充

$TD(\lambda)$

$TD(\lambda)$ return估计过程被广泛用于actor-critic。参数 $\lambda$ 被用于在动作序列上分配信度，加快学习，也有助于减轻粗糙的状态空间量化的非马尔可夫效应。

基于直接动态规划的强化学习算法基于根据经历的状态转移的状态值或状态动作值的更新。每个此类更新又基于对要更新值的估计器特定选择的使用，这也阐明了各种学习方法之间的差异。

这里使用 $x_t$ 表示时间步 $t$ 的状态， $r_t$ 是执行动作 $a_t$ 的到的奖赏，带折扣的return为：
$\bm{r}_t=r_t+\gamma r_{t+1}+\cdots+\gamma^n r_{t+n}+\cdots$

状态值 $V^{\pi}(x)$ 就是从状态 $x$ 开始根据策略 $\pi$ 执行动作的期望return。策略最优时，使用 $V^*$ 标记。

$TD(\lambda)$ 估计器就是一种给定策略估计V值的方法。 $\bm{r}_t^{(n)}$ 表示修正的n-step截断的return：
$\bm{r}_t^{(n)}=r_t+\gamma r_{t+1}+\cdots+\gamma^{n-1}r_{t+n-1}+\gamma^n\hat{V}^{\pi}_{t+n}(x_{t+n})$
其中 $\hat{V}^{\pi}_{t}$

最低0.47元/天解锁文章

强殖装甲凯普

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Incremental multi-step Q-learning 笔记

文章目录前言TD(λ)TD(\lambda)TD(λ)Q(λ)Q(\lambda)Q(λ)-learning前言这篇文章介绍了Q(lambda)算法。资格迹这类算法网上有很多资料，但大都是sutton书里的，看完往往不知道怎么结合到深度里，特别是TD(lambda)。这篇文章里有一些化简得到的公式，借助它们可以方便地在深度里实现TD(lambda)和Q(lambda)。此博客也相当于在介绍资格迹。此文章作者2014年在researchgate上传了一个，相比1996年的内容略有出入，本文结合了两篇并对
复制链接

扫一扫