深度强化学习二 || 价值学习 DQN 相关概念

Anthony_CH

已于 2022-03-20 19:01:38 修改

阅读量2.3k

点赞数

文章标签：强化学习

于 2022-02-13 12:29:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56039091/article/details/122907435

版权

深度强化学习二 || 价值学习 DQN 相关概念

用神经网络 Q(s,a;w) 来近似Q*(s,a) 函数，因为Q*函数并不存在

Q(s,a;w) : 参数为w，输入为s，输出为对所有动作a的评分，每个动作对应一个分数

TD算法训练DQN

假设从NYC->Atlanta 模型预先估计 1000mins，我在路上到达 DC 时，车坏了，历时了300mins，此时模型估计从DC->Atlanta需要600mins，也就是说新的估计从NYC->Atlanta需要900mins，我就把900mins当做实际值，它要比纯的1000mins靠谱，因为900mins里面有300mins是实际观测到的，于是可以做更新。其中TD error = 1000-900 = 100

TD error为0 就意味着估计值与实际值一致

用TD算法意味着，不需要打完游戏，也可以更新参数

最后得到下述公式

等式左边是在t时刻对游戏所有收益的期望，右边是当前已经得到rt的回报，并对下一个时刻对游戏所有收益的期望乘以折扣

注Q(st,at;w) 其中at是已经做出的动作，它的评分最高

整体过程如下

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
深度强化学习二 || 价值学习 DQN 相关概念

DQN相关数学原理概念
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。