本文是对深度学习大牛Hinton于2012年发表在NIPS上面的论文《ImageNet Classification with Deep Convolutional Neural Networks》进行学习的笔记。
1.关于对数据集ImageNet的处理:
研究者将图片down-sample到固定像素256*256。对于一个矩形图片,先放缩图片使短边长度为256,才取此时图片中间的256*256的patch作为结果图片。除了将训练集中的每个像素都减去mean activity外,再没有对图片作其它的预处理了。Hinton直接使用RGB值来训练网络。
2.数据集:暂不作翻译和解析。
3.框架:包括5个卷积神经网络层和3个全连接层。
3.1. ReLU Nonlinearity.
一个神经元的输出函数(或者称为激活函数)分为两种,一种是saturating nonlinearities,例如f(x) = tanh(x),另一种是non-saturating nonlinearity,例如f(x) = max(0,x)。Hinton将符合后者nonlinearity的神经元称作Rectified Linear Units(ReLUs)。后者速度比前者快了六倍以上。原因是对于max(0,x)函数,若x小于0,则该神经元不被激活,也无须进行梯度计算和向后传播。
3.2.多GPU训练
由于一个GTX580GPU只有3GB内存,120万训练样本无法放在一个GPU上,所以Hinton采用cross-GPU parallelization。一个GPU能对另一个GPU的内存进行直接的读写操作。Hinton将一半的kernel(或者神经元&