自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_43146317的博客

有一个进大厂的梦想 CSDN认证博客专家 CSDN认证企业博客

码龄6年

7: 原创

18万+: 周排名

211万+: 总排名

1万+: 访问

: 等级

102: 积分

9: 粉丝

10: 获赞

7: 评论

89: 收藏

私信

关注

热门文章

分类专栏

强化学习 7篇

最新评论

多智能体强化学习入门QMIX
有一个进大厂的梦想: 合理的动作
多智能体强化学习入门QMIX
bluesky0568: 博主您好,avail action指的是什么呀
多智能体强化学习入门QMIX
hit_dhr_auto: 博主您好，这个源码可以开源吗，学习之用，非常感谢！
多智能体强化学习入门QMIX
Oh_My_god123: 博主您好，本人太笨，关于QMIX算法看不明白了，还望不吝赐教，小弟我将感激不尽！！！1）agent网络一定得用循环神经网络吗？能不能用像DQN中的那样的卷积或者BP神经网络呢？就是输入状态，输出agent不同行为的Q-Value；2）假设有n个agent，蓝色推理网络的的输入是每个agent所选行为的效用值Q（共计n个），其输出是Qtot（1个值），蓝色推理网络的参数是由红色参数生成网络生成，而不是有优化器回调的，我这样理解有问题吗？3）模型学习的时候仅仅基于同一个误差td_error （基于2）中提到的这一个Qtot计算而来）来同时回调所有agent网络的参数和红色参数生成网络的参数，不调节蓝色推理网络？4）红色参数生成网络的输入是全局信息，这个全局信息是不是就是所有agent还未采取行动时的已知全局环境信息Env？例如所有agent位置，障碍物位置，目标点状态等等。5）我们能不能不要红色参数生成网络了，只要一个蓝色推理网络，把全局信息Env和n个agent所选行为的效用值Q一起当做蓝色推理网络的输入，然后利用优化器回调蓝色推理网络的参数？6）假设每个agent都能随时获取其他agent的信息，在每一轮n个agent决策过程中，n个agent依次采取行动a1,a2,...,an，第1个agent的局部观察o1=Env，第2个agent的局部观察o2=o1+a1,...,an=o(n-1)+a(n-1)，这种情况下是不是就可以不要全局信息Env了？7）可以分享一下知乎里面的完整代码吗？github上的代码好像不太完整，看不太懂。。。8）实在不好意思，原谅我是菜鸡一枚，问题有点多多，有打扰之处还望谅解！！！
强化学习-DDQN(三)
little-fairy: 竟然有代码太感谢了！

最新文章

强化学习

关注

文章平均质量分 76

关注数：文章数：7 文章阅读量：14575 文章收藏量：89

作者: 有一个进大厂的梦想

这个作者很懒，什么都没留下…

展开