【激活函数】
文章目录
1.什么是激活函数
1.1 什么是激活函数
- 将输入映射为一个特定分布的输出,完成非线性变换
2. 为什么需要激活函数
2.1.大脑的生物机制
2.2 网络的表达能力
- 神经元模型
y j = b j + ∑ i x i w j i z = b ′ + ∑ j y j w j ′ = b ′ + ∑ j ( b j + ∑ i x i w j i ) w j ′ = b ′ + ∑ j ( b j w j ′ ) + ∑ i ( ∑ j x i w j i w j ′ ) y_{j}=b_{j}+\sum_{i} x_{i} w_{j i}\\ z=b^{\prime}+\sum_{j} y_{j} w_{j}^{\prime}=b^{\prime}+\sum_{j}\left(b_{j}+\sum_{i} x_{i} w_{j i}\right) w_{j}^{\prime}=b^{\prime}+\sum_{j}\left(b_{j} w_{j}^{\prime}\right)+\sum_{i}\left(\sum_{j} x_{i} w_{j i} w_{j}^{\prime}\right) yj=bj+i∑xiwjiz=b′+j∑yjwj′=b′+j∑(bj+i∑xiwji)wj′=b′+j∑(bjwj′)+i∑(j∑xiwjiwj′)
增加一层后表达还是线性的
- 没 有 激 活 函 数 就 没 有 非 线 性 表 达 能 力 \color{Red}没有激活函数就没有非线性表达能力 没有激活函数就没有非线性表达能力
3.激活函数的发展
3.1 激活函数种类
3.2 sigmoid 和 tanh 激活函数
s i g m o i d ( x ) = 1 1 + e − x tanh ( x ) = e x − e − x e x + e − x sigmoid(x)=\frac{1}{1+e^{-x}}\\ \tanh (\mathrm{x})=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}} sigmoid(x)=1+e−x1tanh(x)=ex+e−xex−e−x
3.2.1.sigmoid 函数优缺点:
- 优点——输出0—1,映射平滑适合预测概率,但是没有复值激活
- 缺点——不过零点, 梯 度 消 失 \color{Red}梯度消失 梯度消失
3.2.2tanh函数优缺点:
- 优点——映射(-1,1)之间,过零点,值域更大
- 缺点—— 梯 度 消 失 \color{Red}梯度消失 梯度消失
3.3 ReLu激活函数
- f ( x ) = m a x ( 0 , x ) f(x)= max (0,x) f(x)=max(0,x)
优点——计算简单,导数恒定,拥有稀疏性
缺点——没有负激活值
3.4 Relu激活函数的改进
- 激活函数负值输入,未证明全面比ReLu提升
3.5Maxout函数
- 从多个输入中取最大值,求导非常简单,只在最大值得一路有梯度
max a k = max ( w 1 T x + b 1 , w 2 T x + b 2 , … , w n T x + b n ) \max a_{k}=\max \left(w_{1}^{T} x+b_{1}, w_{2}^{T} x+b_{2}, \ldots, w_{n}^{T} x+b_{n}\right) maxak=max(w1Tx+b1,w2Tx+b2,…,wnTx+bn)
- 优点——拟合能力非常强
- 缺点——计算量增加,增加了K个神经元
4. 总结与展望
4.1.激活函数从人工设计到自动学习
Swish函数—— x ⋅ s i g m o i d ( β x ) x \cdot sigmoid(\beta x) x⋅sigmoid(βx)