💡 正如在全连接神经网络那篇文章中介绍Perception时提到的,人工神经网络中的激活函数(activation function)是对生物神经元达到膜电位阈值后发射常数脉冲的模拟,因此从神经生物学视角来看,1958年的感知机Perception中使用的非线性的0-1阶跃/符号函数是最理想的,但在数学层面却不是。阶跃函数不连续不可导,在BP反向传播中会带来巨大的计算问题;此外,对于线性神经网络而言,激活函数又承载着帮助线性结构拟合非线性规律、规范输出范围的功能,还得重点关注梯度问题。因此,激活函数在神经网络模型尤其是大规模的大模型中,核心注意点是四个:引入非线性能力,输出约束特性,梯度友好,计算开销小。
1 激活函数的必要性:非线性能力,输出约束特性
请观察下图中具有单个隐藏层的MLP,并忽略激活函数列出 z ( 2 ) z^{(2)} z(2)的表达式。
z ( 2 ) = ( x W ( 1 ) + b 1 ) W ( 2 ) + b 2 = x W ( 1 ) W ( 2 ) + b 1 W ( 2 ) + b 2 z^{(2)}=(xW^{(1)}+b_1)W^{(2)}+b_2 = xW^{(1)}W^{(2)}+b_1W^{(2)}+b_2 z(2)=(xW(1)+b1)W(2)+b2=xW(1)W(2)+b1W(2)+b2
可以看到,在两层的神经网络中,如果不考虑激活函数,整个网络可以简化为一个线性的仿射变换,即权重矩阵的乘积作用于输入 x x x加上一个偏置项。因此,去掉激活函数后,两层 MLP 就失去了非线性映射的能力,成为了一个线性模型。因此,是非线性激活函数的存在使得 MLP 能够表达更复杂的函数关系,去掉这些激活函数将使其无法解决非线性问题。Ok,让我们给隐藏层的输出加上Sigmoid激活:
z ( 2 ) = S i g m o i d ( x W ( 1 ) + b 1 ) W ( 2 ) + b 2 = h ( 1 ) W ( 2 )