最近在看论文,想把我学习的东西记录和整理。 《ImageNet classification with Deep Convolutional Neural Networks》在我研一的时候已经读过一遍,过了小半年温习一下。论文下载地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
作者在摘要的部分就已经很清楚的告诉我们次篇论文的网络模型结构和模型训练的最后精度效果。下面就作者主要介绍了ReLU,LPN,Overlapping Pooling,总体架构,减少过度拟合,这也是本文的创新点。
一、Rectified Linear Unit nonlinearity (ReLU)
论文主要讲了为什么激活函数要用ReLU。在训练的过程中,非线性饱和函数(sigmoid和tanh)比非线性不饱和函数(ReLU)慢,深度卷积神经网络训练中使用ReLUs的速度是使用tanh的数倍,如下图实线是ReLU,虚线是tanh,在训练误差达到25%时两种激活函数迭代的次数比较。
</