BIT_1ST_HANDSOME-CSDN博客

原创 MADDPG 你想要的

这里面和我们的Policy-Gradient唯一的区别在于，Policy-Gradient中直接就是一个Reward，但是这里的Q实际上是Critic相关的输出（td-error），并且这个输出和所有的智能体的行为，当前环境都是相关的，即，每个智能体都配备有一个专门负责其学习的Critic网络。即最优Q值会随着时间变化的问题，这会使Q-learning学习变得困难，此外环境的不稳定还会导致Q-learning的batch memory方法失效，进一步导致Deep Q Network的功能也变差。

2023-05-11 20:12:16 679

原创神经网络常用激活函数

激活函数是应用于这些神经元输出的非线性函数，它的作用是增加神经网络的表达能力，使得神经网络可以学习更为复杂的模式。→使用LeakyReLU激活函数，它是ReLU的一种变体，将x<0区域的输出设置为一个很小的负数，解决了ReLU激活函数中可能出现的“死亡”神经元问题。没有激活函数，神经网络只是对输入进行简单的线性变换，这样的话就限制了神经网络的表达能力。公式：tanh(x) = (e^x - e^(-x))/(e^x + e^(-x))另外，激活函数还可以将神经元的输出限制在一个特定的范围内，

2023-05-04 21:07:37 288