alexnet训练多久收敛_AlexNet浅析

(未经作者同意禁止转载)

AlexNet是在2012年由Hinton的学生Alex Krizhevsky提出的深度卷积神经网络模型,AlexNet可以说是LeNet的继承和发展,AlexNet具有6000万个参数和65万个神经元的神经网络由五个卷积层和三个全连接层,以及最后的1000维的softmax层组成。

AlexNet网络架构

ImageNet上测试的结果表明,AlexNet比(论文发表时的)以前所有的网络的性能都要高,而且需要的训练时间更少。下面简单分析AlexNet的创新点,并探讨它们是如何影响性能的:

1)将ReLU代替sigmoid作为CNN的激活函数,并验证了ReLU在较深的网络里性能优于sigmoid,有效解决了sigmoid引起的梯度弥散的问题。而且ReLU比sigmoid的学习速度更快,节省训练时间。

2)多GPU训练,由于以前的GPU内存(GTX580内存为3G)较小,这限制了可以在其上训练的网络的最大尺寸。AlexNet将网络分布在两个GPU上,而在训练时GPU仅在特定的层间进行通信,从而减少性能消耗。与在单个GPU上训练且每个卷积层的内核数量少一半的网络相比,这个方案分别将top-1和top-5的错误率分别降低了1.7%和1.2%。双GPU网络的训练时间比单GPU网络的训练时间少一点。

3)提出LRN局部响应归一化(用于ReLU后),不同的内核计算的神经元输出之间产生对大激活度的竞争,使得局部较大的响应值更大,而小的会变得更小,从而抑制了小的神经元,增强模型的泛化能力。响应归一化将top-1和top-5的错误率分别降低了1.4%和1.2%。

4)使用重叠的最大池化代替平均池化,避免平均池化造成的模糊化效果。而且Alexnet中的步长比池化核的尺寸要小,池化层的输出间会有重叠,这样使特征能表现更多的内容,提高识别性能。这个方案将top-1和top-5的错误率分别降低了0.4%和0.3%。通常在训练期间观察到重叠池模型稍微难以过度拟合。

5)Dropout即以0.5的概率把每个隐藏的神经元的输出设置为零。以这种方式“dropout”的神经元不参与正向传递,也不参与反向传递。所以每次提交输入时,神经网络都采样不同的体系结构,但是所有这些体系结构共享权重。这种技术减少了神经元的复杂的共同适应,因为神经元不能依赖于特定的其他神经元的存在。注意dropout大致使收敛所需的迭代次数翻倍。

6)数据增强。因为Alexnet的参数量巨多,容易造成过拟合,通过截取,平移,翻转还有RGB像素值集上做PCA(对于每个训练图像,成倍增加已有的主成分)等方法使得数据集更丰富,从而提高泛化能力。从原始图像生成变换的图像是在CPU上的Python代码中生成的,而GPU正在训练上一批图像,这节约了时间。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值