alexNet 论文学习第一轮

qq_43625764

已于 2022-07-15 21:52:37 修改

阅读量651

点赞数

分类专栏： Alex net 小助手笔记文章标签：深度学习 python

于 2022-07-15 21:51:35 首次发布

本文链接：https://blog.csdn.net/qq_43625764/article/details/125812755

版权

小助手同时被 3 个专栏收录

48 篇文章 2 订阅

订阅专栏

笔记

15 篇文章 0 订阅

订阅专栏

Alex net

1 篇文章 0 订阅

订阅专栏

AlexNet(ImageNet Classification with Deep Convolutional Neural Networks)开山之作

论文原文：http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
基于caffe的实现：http://caffe.berkeleyvision.org/gathered/examples/imagenet.html

怎么做了，效果特别好

imagenet 一开始是计算机视觉界比赛（注重刷榜）ilya的说工作效果特别好，在cv界是没有多大偏见的

一开是在计算机视觉界红了

1-1标题

ImageNet Classification 100万张图片，1000类

Deep Convolutional Neural 当时卷积神经网络没开始（神经网络已经熟知，树，svm的年代）

Deep:当时知道的寥寥无几

1-2作者

Alex Krizhevsky
University of Toronto
kriz@cs.utoronto.ca
Ilya Sutskever
University of Toronto
ilya@cs.utoronto.ca
Geoffrey E. Hinton
University of Toronto
hinton@cs.utoronto.ca

1-3Abstract

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KaSgOs4K-1657892214403)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657870060529.png)]$

（第一件事告诉我们干了什么事情）第一句话说我们训练了一个很大的large很深的deep（卷积convolutional）神经网络neural network用来对120万张（high-resolution高分辨率）图片做分类
（第二件事就说结果），在测试集上，我的top-1和top-5的错误率是37.5%和17.0%。which is considerably better than the previous state-of-the-art：比前人做的工作都要好
- alexNet 有60*100万个参数，和65000个神经元svm和线性模型的参数可能没有那么多
- alexnet，有5个卷积层，3个全连接层和最后100层的softmax
（怎么做）为了训练快一点，使用了 non-saturating neurons和高效的GPUGPU实现在2012年已经是比较正常了，2007年nvidia出了cuda，2007-2012gpu用的比较多，matlab有gpu加速包
（为了减少overfitting），使用了a recently-developed regularization method（叫做dropout）
又把模型放在了ILSVRC-2012（比赛）中，得到了15.3%的测试作物率，第二名是26.2%

1-4Discussion讨论（未来要干啥），AlexNet没有结论（与摘要有一定的一一对应）

（Alex）一个大的，深的卷积神经网络，在一个特别challenging数据集上，可以做到一个特别好的结果，如果去掉一层，我们的网路性能会往下降（performance degrades）。如果有五层神经网络去掉一层会下降2%。So the depth really is important for achieving our results.##所以深度是很重要的
（李沐开了天眼）把卷积层拿掉一层不能说明深度是最重要的
- 很有可能是参数没有设置好，实际上alexnet去掉一层，参数调整一下还是有可能表现好
- 神经网络不能特别深特别窄，也不能特别宽特别浅（高宽比很重要)##李宏毅的课程多次题到
Discussion第二段“we did not use any unsupervised pre-training”这句话让深度学习在非常长的的一段时间主要关注于labeled的数据，（在此之前训练一个网络，在没有标号的数据集上，把整个的结构抽取出来）##李沐alexnet-1-10.52
- alexnet：不用unsupervised pre-training没关系（误解后来读者^^^VVV^^）
- 导致非常长的一段时间内，关注于有标号的数据，比较supervised的lerning
- hinton，lecun当时追求无监督学习
- 最经bert在自然语言，gan的兴起把大家的注意力回到了无监督学习
- alexnet之前是做无监督学习，因为有监督学习打不过别人（imagenet的出色表现使得labeled数据（有监督学习）开始受关注，直至bert的出现，目光又回到无监督学习）
- 如果有足够多的网络资源，可以把网络做的更大，没有标号的数据也没有关系，网络更大，训练更长，得到更好的结果，不过跟人的视觉差距还很远
- would like to use very large and deep convolutional nets在视频上面要有钱，有机器，才能训练得起video数据，训练视频数据现在还是一个比较1困难的事情，（video比较慢，而且video有版权的）

Figure 4

用测试图片来看分类效果怎么样
把神经网络的导数第二层的数据拿出来得到一个长的vector，每个图片的都拿出来，给定一些相似的图片，他们最后输出的vector很近
ML的一个分类器就能做好

–pass - 2

2 Introduction

一篇论文的第一段通常实在讲一段故事，讲了哪些东西，为什么重要
object recognition对象识别，图像分类。prove their performance提升性能，收集更大的数据集，learn更powerful的模型，使用更好的技术来preventing overfitting，
深度学习可以使用很大的模型，通过正则化，来使得模型不要过拟合，正则并不是很重要，关键是整个神经网络的设计，使得很大很大的神经网络在没有正则化的情况下也能训练出来（理论和实践工作都在推进，哈哈哈哈，还需要正则化）
然后讲数据Caltech-101/256，过渡到imagenet（imagenet数据集大，吹一波）为了从百万张图片中识别上千种类别，需要一个很大的模型。然后直接做神经网络，用CNN来做,(CNN是一个很好的模型. CNN做大了很容易overfitting或者train不动，“这个写法有问题，当时的主流不用CNN，当年主流模型是用别的。半句话不提别人的算法只提CNN是一个很窄的视角，写论文不要只写自己的方向怎么样，还要提到别人的方向怎么样
第三段， CNN很好，但是训练不动，有了GPu,算力能跟上，可以train很大的东西,图片的数据集够大
第4段:我们训练了一个最大的神经网络取得了待别好的结果，实现了GPU上，2D卷积||我们的网络有新的和不常见的featwes特性
section3，提升性能，减少训练时间
section4 做什么方法，可以避免过拟合
左后 alexnet 有5个卷积层和3个全连接层，depth深度很重要
unusa features 新的没用过的东西可以做很大，新的技术来解爵过拟合，炫技，把很好的技木，拿了一个最好的成债对别人启发性不高，研究工作过于复杂过于难以复现，可能做一简文章，但引用力手特别低，不仅做了很好，还有创新效果在里面。AlexNet(ectis
GTx 580需要把网络切开放在GPU上

数据集

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gZilfk7R-1657892214408)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657889865557.png)]$

3.The Architecture架构

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E8Ret4Zr-1657892214412)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657890360748.png)]$

ReLU 非线性的东西，这些, these saturating nonlinearities非线性的激活函数，会比非饱和的非线性的激活函数更慢（“非饱和的非线性的激活函数f(x)=max(0,x)=ReLU,用了ReLU之后，效果而别好，特别faster”）epochs扫描多少遍数据，solid line实线，dashed line虚线