1.训练样本大量的情况下,计算偏导数的计算量过大
解决:随机梯度下降
将从样本中抽取部分样本分成若干份,然后做梯度下降。有利于放到GPU中做并行运算,以牺牲精确度换取时间。
2.梯度消失问题(梯度弥散问题)
激励函数在某一段的导数过小,导致Loss过早的不再下降,精确度过早的不再提高。
解决:
消除链式法则中发生的连乘式每一项绝对值小于1的情况。
1.初始化一个合适的w
有可能引发梯度爆炸
2.选个合适的激励函数
ReLU函数 : y=max(x,0)
优点:在第一象限中不会出现梯度消失的问题
由于导数为1,求解他的导数要比求解Sigmoid函数的导数代价要小。