摘要:
介绍网络的布局结构,主要包括5个卷积层、最大池化层、丢包dropout层,以及3个全连通层。该结构用于针对拥有1000个可能的图像类别进行分类。
引入:
- 现实生活中的物体总是千变万化,在学习如何识别他们时,大的数据集显得十分必要。
- CNN的能力可通过改变其深度和广度来控制,且他们对自然图像有更强更准确的假设。
- GPUs能够帮助大规模CNN的训练,且ImagNet数据集是足够大的,不会让模型出现过拟合。
- 网络大小受限于
- GPUs的可用存储
- 可容忍的训练时间
文章特别之处:
- 高度优化的GPU和其固有操作
- 减少时间的方法:采用了一些新的特征
- 线性整流层ReLU的非线性函数
- 两块GTX 580 GPU训练了5~6天
- 局部响应归一化
- 重叠池化
- 防止过拟合的几个方法
- 数据扩容方法data augmentation,包括图像变换、水平反射、块提取patch extractions等方法
- 丢包层:将隐藏神经元中概率为0.5的输出项设置为0
- 网络深度十分重要
- 5个卷积层
- 3个全连通层
网络的学习细节:
- 批量随机梯度下降法进行训练,为动量和权重衰退设定限定值
- 在ImageNet数据库中进行网络训练,库中包含22000种类的1500万标签数据
- 两块GTX 580 GPU训练了5~6天
本文展示了一个强大的深度神经网络,它能够在一些极具挑战性的数据集中单纯使用监督学习来完成一些破纪录的任务。它的建模方法在ImageNet数据训练这一历史性的难题上有着很好的表现。它提出的许多技术目前还在使用,例如数据扩容方法以及丢包dropout层。同时也告诉我们网络的深度对于完成任务十分重要。