1. 正则化系数与最速下降的步长 ℓ(W,b)=−1N∑iNy(i)logp(i)+(1−y(i))log(1−p(i)) 这里对全局的损失之所以取均值的原因在于,是为了解耦(decouple)后续的对权值矩阵的正则化系数以及 SGD 的步长; 转载于:https://www.cnblogs.com/mtcnn/p/9422627.html