《Reinforcement Learning》读书笔记 6：时序差分学习（TD-Learning）

最新推荐文章于 2024-08-11 18:21:52 发布

qjf42

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量9.2k

点赞数 4

分类专栏：强化学习文章标签：强化学习 reinforcement learning 读书笔记 td

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qjf42/article/details/79717879

版权

《Reinforcement Learning: An Introduction》读书笔记 - 目录

先来看一个例子
每天上班的路程，都是可以看作是一系列子过程的组合，如：走路去地铁站=>地铁1=>地铁2=>公交，总时长是这些子过程之和。每天我们依赖之前的经验，估计当天的时长，并更新我们的经验。
td_example_1
那么如何做出更好的估计呢？如何更快地积累有效的经验？
尤其是在一个没有适合model（回顾MDP中的 $p(s', r|s, a)$ ）的环境下

两种思路

回顾第二章中的迭代式更新reward方法：
$New = Old + StepSize \cdot (Target − Old)$
这里并没有对model做任何假设，并且可以以一种在线、增量的方式进行更新
从而我们可以有两种方式：

const-α Monte Carlo
$V(S_t) \leftarrow V(S_t) + \alpha (G_t - V(S_t))$
- stepsize设为一个固定的值 $\alpha$ ，这样新的经验会占有更大的权重，能适应环境的变化
- target定义为 $G_t$ ，也就是需要每一轮episode结束后才能进行更新
TD(0)(one-step TD)
V(St)←V(St)+α[Rt+1+γV(St+1)−V(St)]

最低0.47元/天解锁文章

关注

4
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

qjf42 CSDN认证博客专家 CSDN认证企业博客

码龄16年

12: 原创

31万+: 周排名

205万+: 总排名

4万+: 访问

: 等级

558: 积分

33: 粉丝

19: 获赞

4: 评论

86: 收藏

私信

关注

热门文章

分类专栏

强化学习 5篇
NLP 2篇
机器学习 4篇

最新评论

N-gram语言模型 & Perplexity & 平滑
baidu_38739567: 您好， back off 这里的α是不是应该是剩余概率除以所有需要用到的上一ngram的p之和呢？再与此次用的上一ngram的P相乘为此次的P，不然的话所有的P相加就超过1了？个人拙见，想跟楼主探讨下。
N-gram语言模型 & Perplexity & 平滑
qjf42 回复 Chase_Ray: 在训练的时候，如果分母（也就是上文 w_{i-n+1},... w{i-1}）不存在，那( w_{i-n+1},... w{i}) 也肯定不存在，所以不用考虑这类情况实际预测的时候，如果预计会出现训练集没有的分母，那在训练时就需要把这类情况考虑进去，加入<unk>，参考https://stats.stackexchange.com/questions/114863/in-kneser-ney-smoothing-how-are-unseen-words-handled
N-gram语言模型 & Perplexity & 平滑
Chase_Ray: 您好，请问如果KneserNey中分母 C(wi-n+1,...,wi) == 0 怎么处理呢，对这个不是很理解
关于词向量的一些理解
super1peng: 您好，最近也再看相关方面的论文，其中有不懂之处想交流一下，方便的话可能给我一下您的联系方式吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。