Recipe of Deep Learning
Overfitting
overfitting的判断是要训练误差与测试误差做比较。这个56-layer的网络在训练集上都没有训练好,说白了就是有点欠拟合。所以仅仅依靠测试集上的结果来判断56-layer比20-layer overfitting是不合理的。
更多理解见
Overfitting and Underfitting With Machine Learning Algorithms
各种改进技巧
New activation function
RELU
针对负向,提出了Leaky ReLU, Parametric ReLU
ReLU,P-ReLU, Leaky-ReLU
ReLU 简单而粗暴,大于0的留下,否则一律为0。
因为神经网络的数学基础是处处可微的,所以选取的激活函数要能保证数据输入与输出也是可微的。
Rectified linear unit(ReLU) 函数的激活函数可以表示为f(x)=max(0,x),它更加符合神经元的激活原理。它的一个平滑