持续更新机器学习相关小问题及答案
Q1:为什么需要激活函数?
A1:因为没有激活函数的话,无论多少层的叠加,都只是做一个线性变换,永远只能拟合出一条线性的直线或平面,不能拟合出非线性的曲线和曲面,所以需要加上激活函数,这才可以拟合出任意的曲线和曲面
Q2:什么是梯度消失和梯度爆炸?
A2:主要是因为以前用sigmoid的时候,sigmoid中心部位和两侧的梯度差别太大,如果权重初始化得太大,激活值基本都在sigmoid两侧,两侧梯度几乎为0,传播几层就没有梯度了。
即使用很好的初始化算法把激活值控制在一个合理范围内,优化几下有几个神经元就又跑到两侧了,而一旦到两侧,因为梯度过小,就再也无法通过梯度更新来使其恢复。这个问题在提出ReLU和有效的初始化方法(例如MSRA)后已经大概率解决。后来又出了个Batch Normalization,不管优化多少层都跟浅层一样,梯度消失问题基本可以认为彻底解决了