重温强化学习之无模型学习方法：TD(lambda)

BUPT-WT

于 2018-12-16 11:01:37 发布

阅读量9.7k

点赞数 10

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41362649/article/details/85028315

版权

强化学习专栏收录该内容

17 篇文章

订阅专栏

本文深入探讨了强化学习中的TD(lambda)算法，包括多步自举、TD(0)与MC采样对比，以及TD(lambda)的前向视角与后向视角。详细解析了资格迹的概念，并讨论了TD(lambda)在不同参数下的表现，以及其与Sarsa算法的结合应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、多步自举

一步TD:TD(0)，白色圈V函数，黑色Q函数，后继状态V函数更新当前状态V函数，采样，智能体和环境进行交互。根据状态采取一个动作，转为后继状态，环境给一个奖励－－》采样一步得到后继状态

MC 采样到终止状态。MC只采样一步，之后的状态利用之前的值函数进行对当前值函数的估计

多步自举通过采样和自举的方法做一个权衡，TD(0)一步采样之后多步自举，现在多步采样多步自举

n步回报值：

几步为最优？

注意：为了计算n步回报值，需要维护R，S的存储空间，对于后继状态不足n个的，使用MC目标值

2、TD(lambda)

1）简介

将n步回报值平均

lambda回报值

TD(lambda)加权函数

TD(lambda)的两种视角：

前向视角：主要是理解TD(lambda),上述是前向视角

后向视角：比较实用的算法

TD(lambda)的前向视角：

TD(lambda)的后向视角：前向视角提供理论，后向视角提供实用算法，通过后向视角，可以实现在线更新，每步更新，从不完整状态更新

2）资格迹

后向视角的TD(lambda):

简单地来说，后向视角是秋后算账，看前面那个状态贡献比较大，之后对这个状态的资格迹加1，其它状态资格迹不断地衰减

3）TD(lambda)的两种视角的关系

TD(lambda)与TD(0)

TD(1)和MC:

TD(lambda)和TD(0)

当lambda=1时，信度分配会被延迟到终止状态，这里考虑到片断性任务，而且考虑离线更新，考虑一个片段整体的情况下，TD(1)总更新量等价于MC,在每一步更新上可能有差距

对s 的总更新量

前向视角和后向视角的TD(lambda)

两种视角下的等价性：

离线更新：

在线更新：

小结：

3、TD(lambda)优化算法

n步Sarsa:

前向视角的Sarsa（lambda）算法

后向视角的Sarsa(lambda)

Sarsa(lambda)算法：

博客等级

码龄7年

793
原创

264
点赞

1158
收藏

370
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

基于文本挖掘的企业隐患排查质量分析模型
Yini_Xi: 您好，现在网站已经打不开了，能分享一下数据源吗？我想自己试试看，谢谢
GGNN(Gated Graph Sequence Neural Networks)
LuLuYao9494: 论文里面说了，是为了output sequence，输出不一样。看源论文比较好
《程序员代码面试指南第二版》Python实现（个人读书笔记）
tianqi911: 我靠神人呀。怎么评论怎么少？？？好厉害呀。自己能写出来这些代码，太NB了。
爬取热搜电影数据及Pycharts数据分析
BUPT-WT: x轴全显示 bar = (Bar() .add_xaxis(list(salary_df_top15['薪水'])) .add_yaxis('', list(salary_df_top15['数量'])) .set_global_opts( xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate":45}), yaxis_opts=opts.AxisOpts(name='薪资分布'), title_opts=opts.TitleOpts(title="大数据岗位薪资分布(top15)")) ) bar.render_notebook()
python plt画图不显示中文
BUPT-WT: import matplotlib.pyplot as plt

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。