1. 对于初学者的建议
- 首选 relu 激活函数;
- 学习率设置较小值;
- 输入特征标准化,即让输入特征满足以 0 为均值,1 为标准差的正态分布;
- 初始参数中心化,即让随机生成的参数满足以 0 为均值,当前层输入特征个数为标准差的正态分布 。
2. 激活函数比较
激活函数 | 公式 | 输出范围 | 优点 | 缺点 | 适用场景 |
---|---|---|---|---|---|
Sigmoid | σ(x)=1+e−x1 | (0, 1) | 输出有概率解释,平滑可导 | 梯度消失,输出非 0 中心 | 二分类输出层 |
Tanh | tanh(x)=ex+e−xex−e−x | (-1, 1) | 输出 0 中心,缓解梯度更新方向偏差 | 梯度消失 | 隐藏层 |
ReLU | f(x)=max(0,x) | x≥0时为x,x<0时为 0 | 计算简单,缓解梯度消失 | 神经元死亡,输出非 0 中心 | 常用隐藏层 |
Leaky ReLU | f(x)={x,αx,x≥0x<0 (α为小正数) | 无固定范围 | 解决神经元死亡问题 | α需调优 | ReLU 出现问题时的隐藏层 |
Softmax | σ(z)j=∑k=1Kezkezj | 所有输出和为 1 | 多分类概率输出清晰 | 计算量大 | 多分类输出层 |