目录
sigmod函数主要缺点
在输入值变大时,梯度会变得非常小甚至消失,这意味着,在训练神经网络时,如果发生这种饱和,我们将无法根据梯度来更新权重。
函数输出不是以 0 为中心的,会降低权重更新的效率。
Relu 线性整流函数
当输入为正时,不存在梯度饱和问题。
计算速度快得多。ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。
但存在Dead ReLU 问题。当输入为负时,所有负值部分的斜率都为0,ReLU 完全失效。
Leaky ReLU
在Relu函数左半部分增加了梯度。
随机梯度下降法
在每次更新时用1个样本,随机也就是说我们用样本中的一个例子来近似我所有的样本,来调整θ,因而随机梯度下降会带来一定的问题,因为计算得到的并不是准确的一个梯度,对于最优化问题,凸问题,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。但是相比于批量梯度,这样的方法更快,更快收敛,虽然不是全局最优,但很多时候是我们可以接受的。
总结:
优点:计算速度快。
缺点:可能会陷入局部最优,收敛性能不好,对所有可计算的参数都使用单一的学习率。