ImageNet Classification with Deep ConvolutionalNeural Networks
ReLU(Rectified Linear Units (ReLUs))激活函数的优势:从用梯度下降法的训练时间角度来看,双曲正切或者sigmoid函数这类饱和非线性函数要比ReLU:f=max(0,x)这个非饱和的非线性函数要慢的多(好几倍的速度)。
Local Response Normalization:实验发现用下式归一化能降低错误率。
Overlapping Pooling:实验发现用有重叠的pooling能降低错误率,而且不易过拟合。
减少过拟合的方法:a、增大数据集:一是从原始256*256的图像上随机切割224*224的patch。将数据集增大了2048倍。二是在RGB颜色分量加高斯扰动,使得物体识别对于强度和颜色亮度不敏感。这个方法减少了1%的错误率。b、Dropout:对于每个隐含层神经元,其输出以0.5的概率置0.被Dropout的神经元对网络的前向传播无贡献,不参加反向传播。这个技术减少了复杂的神经元之间依赖性,因为一个神经元不能依赖其他特定神经元的表现。这使得网络强迫学习一些更加鲁棒性的特征。在第二层全连接层用了dropout。
训练:对权重用0均值0.01方差高斯初始化,对于第二四五层、全连接层偏置初始化为1,这使得ReLU输入为正从而加速了学习过程。其他偏置初始化为0;