深度强化学习(Deep Q-learning,DQN)

最新推荐文章于 2024-05-15 17:40:26 发布

维他柠檬可乐

最新推荐文章于 2024-05-15 17:40:26 发布

阅读量635

点赞数

分类专栏：深度强化学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31244453/article/details/121002167

版权

深度强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

参考：教学视频莫烦Python

一，什么是DQN?

学习资料：

强化学习与神经网络

如图显示，主要由DNN＋Q-Learning组成。

Q-Learning已经显示了它的强大。由于场景复杂，状态太多，计算机运行有限。DQN就为解决这个而生。

强大的DQN输入输出有两种，第一种，输入状态和动作，输出为Q表。第二种，输入状态，输出动作。

分析第二种情况：

反向传播更新DNN。

使得DQN无比强大的两大原因：第一，Experience replay；第二，Fixed Q-targets；

二，DQN算法更新(using Tensorflow)

维他柠檬可乐

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习(Deep Q-learning,DQN)

参考：莫烦Python1.什么是DQN?如图显示，主要由DNN＋Q-Learning组成。Q-Learning已经显示了它的强大。由于场景复杂，状态太多，计算机运行有限。DQN就为解决这个而生。强大的DQN输入输出有两种，第一种，输入状态和动作，输出为Q表。第二种，输入状态，输出动作。分析第二种情况：反向传播更新DNN。使得DQN无比强大的两大原因：第一，Experience replay；第二，Fixed Q-targets；...
复制链接

扫一扫

专栏目录

维他柠檬可乐 CSDN认证博客专家 CSDN认证企业博客

码龄9年

84: 原创

18万+: 周排名

2万+: 总排名

19万+: 访问

: 等级

1331: 积分

103: 粉丝

195: 获赞

23: 评论

899: 收藏

私信

关注

热门文章

分类专栏

最新评论

ABB工业机器人程序编写与实战
西木九: 是rapid和c#很像嘛？
读取和归一化CIFAR10
一个喜欢吃草莓味奶糖的女孩: cifar10数据集的normalize是这个嘛？transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5)
ABB工业机器人程序编写与实战
糊涂白豆: 你好，我想咨询下工作站的夹爪模型和控制设计能否共享下呢？可以商量
Pytorch-detach()用法
栏杆拍遍看吴钩: 同意，应该不是一个内存，detach本身也有分离的意思，如果指向一个内存，应该有reshape的意思而不是分离的意思，这里detach应该是从计算图中分离，大概相当于从函数中输出一个张量，输出之后的张量自然与函数的后续计算无关了。
super(Net, self).__init__()
qq_43130158: 先print(self.x)

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。