二、Value-Based Reinforcement Learning

沈夢昂志

已于 2024-09-09 16:54:18 修改

阅读量358

点赞数 4

分类专栏： DRL深度强化学习文章标签：机器学习深度学习人工智能

于 2024-09-06 14:48:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sunsundayZ/article/details/141959532

版权

DRL深度强化学习专栏收录该内容

4 篇文章

订阅专栏

由于在看DRL论文中，很多公式都很难理解。因此最近在学习DRL的基本内容。

再此说明，非常推荐B站 “王树森老师的DRL 强化学习” 本文的图表及内容，都是基于王老师课程的后自行理解整理出的内容。

目录

B. DQN Value_Based method

一、DQN算法介绍

二、TD算法的介绍

三、如何使用TD算法训练DQN

C. DQN算法总结

A.前文提示

在上篇文档中我们提到，训练AI agent 主要有两种方式。

一种是：基于Policy Π 的 Policy_Based_Learning method

一种是：基于 Optimal AC Func Value_Based_learning method

B. DQN Value_Based method

一、DQN算法介绍

游戏的目标是打赢游戏 = 强化学习中最大化奖励

DQN算法是Value based method，因此其依赖acion_value function

Value_Based method表示，在状态S下执行动作A的平均回报有多好（因为是考虑的期望）。（即Q*是一个先知，他能告诉每一个执行动作的平均回报）。DQN算法会选择Q值最高的动作

value-based method 即学习一个函数来近似Q*

来近似估计

DQN算法的输入是S，输出是对于所有可能动作的打分（如果是左右上三个动作，即会产生一个3×1的向量）

二、TD算法的介绍

Temporal Difference Learning

目标使TD error变为0，即预计时间与实际值相等

TD error = Q（w）- TDTarget

一个例子，从NYC到达ATL预计1000min 实际用了860min

模型预测，

TD target = 300+600 = 900 300是实际值，600是估计值。

因此，TD target值相较于估测值Q（w）更加可靠。

三、如何使用TD算法训练DQN

因此

对两边同求期望，得到下面式子

DQN算法根据当前状态St+1 对每一个动作进行打分。并选择分数最高的动作。

C. DQN算法总结

思想

来近似估计

观测到状态S

基于状态S，求得使Q值分数最大的A（实际的Q值）

有了 S 和 A 后

博客等级

码龄4年

8
原创

133
点赞

172
收藏

99
粉丝

关注

私信

热门文章

分类专栏

DRL深度强化学习 4篇
ROS机器人开发 1篇

最新评论

ROS通信，如何查看话题的数据类型和传输自定义数据类型
CSDN-Ada助手: 恭喜你发布了第5篇博客！对于ROS通信这个复杂的主题，你总是能够深入浅出地解释，让读者受益匪浅。接下来，或许可以考虑分享一些实际应用场景中的ROS通信问题解决方案，或者深入探讨一些高级话题，给读者带来更多启发和帮助。期待你更多的精彩作品！
behavior tree 介绍
CSDN-Ada助手: 恭喜您写了第9篇博客，标题为“behavior tree 介绍”，内容相当丰富和有深度。不过我觉得您可以考虑在下一篇博客中加入一些实际案例或者应用场景，这样可以让读者更好地理解和运用behavior tree。希望您能继续保持创作，期待您更多的精彩内容！
lstm长短期神经网络
2301_80351591: 这个方法与我在剑桥的人工智能学院游学时见到的相似，有异曲同工之妙，阿历克斯教授和我说这是最佳的解决方案

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沈夢昂志 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。