【强化学习】时序差分TD error的通俗理解

风可。

已于 2022-11-17 23:11:13 修改

阅读量7.9k

点赞数 5

分类专栏：强化学习文章标签：强化学习

于 2022-11-17 23:07:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012925804/article/details/127913981

版权

强化学习专栏收录该内容

16 篇文章

订阅专栏

引用：https://www.youtube.com/watch?v=jflq6vNcZyA&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU&index=2

在我们优化dqn的时候，损失函数式TD error。

那么为什么可以用这样的方式进行优化呢。

这里有个例子，就是最开始模型预估 NYC 到 Atilanta的路程时间是1000分钟，然后我们实际从NYC到DC走了300分钟，并且模型预估DC到atlanta需要600分钟，那么这里面NYC到DC是真实的时间，所以预估结果和真实结果是有差距的。

所以也可以理解为最开始模型预测NYC到DC是要花400分钟的，但是现在实际时间是300分钟，所以算法是要让预计时间和实际时间相等，如果要计算mse loss，所以这里是让预估时间趋向真实时间。

所以在强化学习中，DQN最后是用r + gamma*Q 作为target是一个道理。这里的r就是真实值。

博客等级

码龄12年

149
原创

115
点赞

421
收藏

74
粉丝

关注

私信

热门文章

分类专栏

软考 1篇
并行计算 6篇
AIGC 1篇
强化学习 16篇
机器视觉 23篇
深度学习 37篇
运筹优化 1篇
论文 22篇
杂项 5篇
图像可视化 7篇
go
golang 1篇
大数据 6篇
NLP 2篇
推荐系统 4篇
sota2020 1篇
CVPR2020
数字图像处理 8篇
机器学习 8篇
数据结构算法 16篇
python 10篇

展开全部收起

最新评论

【ray框架】高性能分布式执行框架——Ray
Owen Lin760: Driver process 應該是在HeadNode上面吧
Pyvista---(6)创建3D矩阵并赋值可视化&创建可视化CT数据
北冥鱼化为鸟: 大佬，你好，我导入PolyData时总是提示出错，ImportError: cannot import name 'PolyData' from 'pyvista'，但是我在conda环境中已经都安装了相关的包，这是什么问题呢，请问
[强化学习总结5] 梯度策略方法
19 W: 博主你好，在1.2节这里我想请教一下： q_values = self.q_net(states).gather(1, actions) # Q值我在离散SAC算法中，假设我的actor用sigmoid激活输出离散动作的概率probs，用torch.distributions.Bernoulli采样，此时由于我的动作值仅为0或1（假设5维），而不像softmax采样得到的动作0/1/2/3/4，此时在update更新网络参数时就没法用torch.gather来获取actions对应的critic值了，这里该怎么处理呢？动作概率对数我可以通过采样集 torch.distributions.Bernoulli.log_prob(actions)获取，但是critic值这块我就不知道怎么处理了
Pyvista---(4)pyvista中常用的函数和应用1
python？？: 能出一个pyvistaqt的教程吗？
解决OpenAI‘s services are not available in your country. (error=unsupported_country)
远行人_Xu: 不管用

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。