AlexNet的主要结构
总共包含8层学习层:5层卷积层和三层全连接层
下面介绍了几个重要的网络结构:
1.ReLU Nonlinearity
相比较于f(x) = tanh(x) 或者 f(x) = (1 + e^-x)^-1这样的饱和非线性(这两个函数在 -1,1 和 0,1附近接近饱和),对于随机梯度下降的方法,f(x) = max(0; x) 也就是ReLU要比两者快很多,下图是一个对比图
一个四层的卷积网络,ReLU和tanh 分别作为非线性单元, 训练误差达到25%的时间, ReLU比tanh快6倍。
所以要训练这种大型网络,ReLU的速度就是吊打tanh啦。
2.在多个GPU上训练
首先就是说一个GPU算起来很慢啦,我们现在的技术可以跨GPU并行计算,所以我们要用这种高端大气上档次的方