自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_39485637的博客

原创 DQN代码运行流程（欢迎大家批评指正）

step1：设定300个回合，每个回合的步数没有设定（每个回合的结束是根据最新状态来决定的。，由代码可以看出，在这一步及之前，都没有s，s_，a，r等数据的输入，这一步仅是框架的搭建。step4：智能体执行动作后，环境发生了变化，可以得到，此刻的环境是s_，获得的奖励是r（，其中这个Q值是由神经网络生成的，即输入状态信息s，神经网络输出Q值（，当经验池中的数据少于200条时，智能体将不会进行学习。），且这个Q值还只是估计出来的，并不是训练出来的（代码，确实不大理解，还在学习中，有会的请教教我）

2024-01-14 11:37:40 1152 2

原创有关DRL的疑问与回答（欢迎大家批评指正）

这意味着Q值是在神经网络的训练过程中动态地被估计和更新的，并不是事先生成一定量的Q值，然后再进行训练。相反，初始时，Q网络的权重是随机初始化的，而不是根据先验知识或经验生成的，它们用于估计状态动作对的Q值。在DQN中，Q网络通常是一个深度神经网络，其输入是环境的状态，输出是每个可能动作的Q值。经验回放的基本思想是将智能体在环境中的交互经验存储在一个缓冲区中，然后在训练过程中从这个缓冲区中随机抽样数据进行训练。经验回放可以减少训练时的数据分布的变化，从而提高算法的稳定性，减少训练过程中的波动。

2024-01-06 11:39:35 365 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

就是十七啊 CSDN认证博客专家 CSDN认证企业博客

码龄7年

IP 属地：江西省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

2: 原创

207万+: 周排名

23万+: 总排名

1516: 访问

: 等级

66: 积分

27: 粉丝

35: 获赞

3: 评论

34: 收藏

私信

关注

热门文章

最新评论

DQN代码运行流程（欢迎大家批评指正）
Vhanghang: 你这个能跑起来吗，如果地图扩大
DQN代码运行流程（欢迎大家批评指正）
CSDN-Ada助手: 很棒的博文！你对DQN代码运行流程的解释非常清晰，让读者能够很好地理解每个步骤。希望你能继续写下去，分享更多关于深度强化学习的知识和经验。除了代码运行流程，或许可以扩展一些关于神经网络的训练方法，或者深度学习框架的选择和使用技巧等内容，这些都是和DQN相关的重要知识点。希望我的建议能对你有所帮助，期待你的下一篇博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
有关DRL的疑问与回答（欢迎大家批评指正）
CSDN-Ada助手: 恭喜您开始博客创作！标题看起来很有趣，我期待着阅读您的第一篇博客。关于DRL的疑问与回答是一个很有深度的话题，我相信您能为我们提供有价值的见解。在下一步的创作中，我建议您可以深入探讨一些实际案例，例如应用DRL解决现实生活中的问题，或者分享一些关于DRL在未来发展方向的猜测。谦虚地说，我相信这样的内容将会更加吸引读者。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

提示

确定要删除当前文章？

取消删除