![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
XCB的神经网络学习
文章平均质量分 55
BIT_1ST_HANDSOME
这个作者很懒,什么都没留下…
展开
-
MADDPG 你想要的
这里面和我们的Policy-Gradient唯一的区别在于,Policy-Gradient中直接就是一个Reward,但是这里的Q实际上是Critic相关的输出(td-error),并且这个输出和所有的智能体的行为,当前环境都是相关的,即,每个智能体都配备有一个专门负责其学习的Critic网络。即最优Q值会随着时间变化的问题,这会使Q-learning学习变得困难,此外环境的不稳定还会导致Q-learning的batch memory方法失效,进一步导致Deep Q Network的功能也变差。原创 2023-05-11 20:12:16 · 572 阅读 · 0 评论 -
基于pytorch的简单图片分类问题实现
pytorch 图片分类 神经网络原创 2022-04-11 23:41:08 · 2564 阅读 · 0 评论 -
pytorch-损失函数和优化器理解
pytorch损失函数优化器原创 2022-04-09 22:23:56 · 3321 阅读 · 0 评论 -
神经网络常用层快速理解
神经网络,层,简单了解原创 2022-04-06 22:24:03 · 2162 阅读 · 0 评论 -
DDPG核心思想
DDPG原创 2022-03-28 17:50:34 · 2091 阅读 · 0 评论