AleNet 学习笔记

最新推荐文章于 2022-11-17 19:59:24 发布

doudou2008aoyun

最新推荐文章于 2022-11-17 19:59:24 发布

阅读量924

点赞数

这个博文是根据阅读Alex Krizhevsky 2012年的文献进行的一个个人总结。

abstract

摘要部分对于简述了工作任务和成果。数据集用的是ImageNet LSVRSC-2010，包含120万张图片，而分类到1000个类当中。这一年具有革命性的创新，首先体现在结果上，错误率仅有15.3%，而当年的第二名却要26.2%。该网络包括650，000个神经元，5个卷积层，3个全连接层（包含一个softmax）。创新点还包括：1）不饱和神经元的使用 2）GPU卷积操作的有效部署 3）使用Dropout进行去拟合操作。

Introduction

文章主要对与物体识别的发展现状（object recognition）进行了阐述，指出了一个最重要的问题是数据集的数量太少，例如之前一直使用的是MNIST数据集的检测已经做的差不多到极限了。2012年大家开始转向ImageNet这个数据集。然后开始说CNN的好处，我类比卷积神经网络是一个可以自由伸缩的弹簧，宽度长度都可以延伸，并且利用到了静态图片的稳定性和像素，这都会增加它的准确性，说白了就是这些参数容易训练。再往后发展，那自然是深度学习了，不过这里没有说，他只是对结构进行了优化，解决的问题在后面会继续说，作者使用的GPU是两个GTX 580 3GB。现在看来也很low了。

The Dataset

ILSVRC比赛有120万个训练图片，5万个验证集，以及15万个测试集。由于这些图片大小不确定，而且像素也有差异，作者将这几个图片进行了同一的处理，输出都是256X256.作者除了对训练集每个像素上减去平均活性值（mean activity），并没有对图片进行其它的特殊处理。

The Architecture

ReLU Nonlinearity

Relu函数非线性处理是一个很好的处理方式，是一种不饱和的非线性处理方式，可以加快收敛。函数形式是f(x) = max(0; x).

作者才cifar-10数据集上进行了测试，包含有Relu的卷积神经网络相比于tanh 神经元的等值网络要快乐6倍。

Training on Multiple GPUs

作者使用了GPU并行计算，可以提高计算机的运行效率。但是这里由于不同GPU之间的传输会影响实验的结果，它规定一个层只在一个GPU上运行，避免了多交叉的影响。这里面交叉验证的连接一样是一个比较难解决的问题，作者在这里有很多操作，没有说的太具体。

Local Response Normalization（传说中的LRN）

对数据进行了归一化处理。其实Relu不是特别需要归一化处理而致使其产生饱和。但是，实验发现下面的这个归一化函数有助于泛化的实现（只能是从经验上理解了）

k = 2, n = 5, = 10e-4, and = 0:75.，a表示的输入，b并表示的是输出，这一模块的理解对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元。

Overlapping Pooling

Overall Architecture

结构的重点是学习每一层的输入输出的具体数值关系。

Reducing Overfitting

Data Augmentation

文中包含两种数据增强方式。

第一种是随机crop。训练时候，对于256＊256的图片进行随机crop到224＊224，然后允许水平翻转，那么相当与将样本倍增到((256-224)^2)*2=2048。这样的数据增强主要是对图片做了裁剪，造成的效果是本来可能是一个完整的人在图片中，现在就剩半个人了，但这样却让模型知道了，这样的半个人他也是人，增强了模型的能力，所谓见多识广。

第二种是对RGB空间做PCA，然后对主成分做一个(0, 0.1)的高斯扰动。结果让错误率又下降了1%。

Dropout

将该层的神经元输出数量乘以一个系数，一般是0.5或者0.3，相当与传入下一层的数量减少了。有打断的功能。我个人理解这个对于提高效率的帮助更大一些。

Details of learning

batch_size = 128 momentun=0.9 weight_decay=0.0005, 第二、四、五卷积层以及全连接隐藏层都含有神经元偏置，初始化值为1。其余的神经元偏置是常数0。所有层测学习率都是相同的。当验证集的误差不再随现有的学习率下降的时候，将现有的学习率值下降10倍。学习率从开始的0.01到最后的终端下降三倍。整个模型训练了90个循环。

Result

Discussion

doudou2008aoyun

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AleNet 学习笔记

这个博文是根据阅读Alex Krizhevsky 2012年的文献进行的一个个人总结。abstract摘要部分对于简述了工作任务和成果。数据集用的是ImageNet LSVRSC-2010，包含120万张图片，而分类到1000个类当中。这一年具有革命性的创新，首先体现在结果上，错误率仅有15.3%，而当年的第二名却要26.2%。该网络包括650，000个神经元，5个卷积层，3个全连接...
复制链接

扫一扫