版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
关于ReLU死亡的解释:设学习速率为r, ReLU的梯度为d(ReLU(wx+b)),那么权重更新公式为:w = w - rd(ReLU(wx+b)); 如果d(ReLU(wx+b))为1,那么权重更新公式变成了:w = w - r;如果学习率 r 较大使更新后的值w为较大的负值,那么很可能在下次迭代中由于wx+b<0, 使d(ReLU(wx+b))变为0,此时w再也无法更新,神经元节点就“死了”。简单来说:Relu在输入<0的时候,导数为0,在反向传播的过程中,无法更新参数w,如果恰好此时的w使神经元的Relu在输入<0,那么该神经元dead