alexNet 论文学习第一轮

15 篇文章 0 订阅
1 篇文章 0 订阅

AlexNet(ImageNet Classification with Deep Convolutional Neural Networks)开山之作

论文原文:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
基于caffe的实现:http://caffe.berkeleyvision.org/gathered/examples/imagenet.html

怎么做了,效果特别好

imagenet 一开始是计算机视觉界比赛(注重刷榜)ilya的说工作效果特别好,在cv界是没有多大偏见的

一开是在计算机视觉界红了

1-1标题

ImageNet Classification 100万张图片,1000类

Deep Convolutional Neural 当时卷积神经网络没开始(神经网络已经熟知,树,svm的年代)

Deep:当时知道的寥寥无几

1-2作者

Alex Krizhevsky
University of Toronto
kriz@cs.utoronto.ca
Ilya Sutskever
University of Toronto
ilya@cs.utoronto.ca
Geoffrey E. Hinton
University of Toronto
hinton@cs.utoronto.ca

1-3Abstract

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KaSgOs4K-1657892214403)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657870060529.png)]

  • (第一件事告诉我们干了什么事情)第一句话说我们训练了一个很大的large很深的deep(卷积convolutional)神经网络neural network用来对120万张(high-resolution高分辨率)图片做分类
  • (第二件事就说结果),在测试集上,我的top-1和top-5的错误率是37.5%和17.0%。which is considerably better than the previous state-of-the-art:比前人做的工作都要好
    • alexNet 有60*100万个参数,和65000个神经元svm和线性模型的参数可能没有那么多
    • alexnet,有5个卷积层,3个全连接层和最后100层的softmax
  • (怎么做)为了训练快一点,使用了 non-saturating neurons和高效的GPUGPU实现在2012年已经是比较正常了,2007年nvidia出了cuda,2007-2012gpu用的比较多,matlab有gpu加速包
  • (为了减少overfitting),使用了a recently-developed regularization method(叫做dropout)
  • 又把模型放在了ILSVRC-2012(比赛)中,得到了15.3%的测试作物率,第二名是26.2%

1-4Discussion讨论(未来要干啥),AlexNet没有结论(与摘要有一定的一一对应)

  • (Alex)一个大的,深的卷积神经网络,在一个特别challenging数据集上,可以做到一个特别好的结果,如果去掉一层,我们的网路性能会往下降(performance degrades)。如果有五层神经网络去掉一层会下降2%。So the depth really is important for achieving our results.##所以深度是很重要的

  • 李沐开了天眼把卷积层拿掉一层不能说明深度是最重要的

    • 很有可能是参数没有设置好,实际上alexnet去掉一层,参数调整一下还是有可能表现好
    • 神经网络不能特别深特别窄,也不能特别宽特别浅(高宽比很重要)##李宏毅的课程多次题到
  • Discussion第二段“we did not use any unsupervised pre-training”这句话让深度学习在非常长的的一段时间主要关注于labeled的数据,(在此之前训练一个网络,在没有标号的数据集上,把整个的结构抽取出来)##李沐alexnet-1-10.52

    • alexnet:不用unsupervised pre-training没关系(误解后来读者^^VVV^^)

    • 导致非常长的一段时间内,关注于有标号的数据,比较supervised的lerning

    • hinton,lecun当时追求无监督学习

    • 最经bert在自然语言,gan的兴起把大家的注意力回到了无监督学习

    • alexnet之前是做无监督学习,因为有监督学习打不过别人(imagenet的出色表现使得labeled数据(有监督学习)开始受关注,直至bert的出现,目光又回到无监督学习)


    • 如果有足够多的网络资源,可以把网络做的更大,没有标号的数据也没有关系,网络更大,训练更长,得到更好的结果,不过跟人的视觉差距还很远

    • would like to use very large and deep convolutional nets在视频上面要有钱,有机器,才能训练得起video数据,训练视频数据现在还是一个比较1困难的事情,(video比较慢,而且video有版权的)

Figure 4

  • 用测试图片来看分类效果怎么样
  • 把神经网络的导数第二层的数据拿出来得到一个长的vector,每个图片的都拿出来,给定一些相似的图片,他们最后输出的vector很近
  • ML的一个分类器就能做好

–pass - 2

2 Introduction

  • 一篇论文的第一段通常实在讲一段故事,讲了哪些东西,为什么重要
  • object recognition对象识别,图像分类。prove their performance提升性能,收集更大的数据集,learn更powerful的模型,使用更好的技术来preventing overfitting,
  • 深度学习可以使用很大的模型,通过正则化,来使得模型不要过拟合,正则并不是很重要,关键是整个神经网络的设计,使得很大很大的神经网络在没有正则化的情况下也能训练出来(理论和实践工作都在推进,哈哈哈哈,还需要正则化)
  • 然后讲数据Caltech-101/256,过渡到imagenet(imagenet数据集大,吹一波)为了从百万张图片中识别上千种类别,需要一个很大的模型。然后直接做神经网络 ,用CNN来做,(CNN是一个很好的模型. CNN做大了很容易overfitting或者train不动,“这个写法有问题,当时的主流不用CNN,当年主流模型是用别的。半句话不提别人的算法只提CNN是一个很窄的视角,写论文不要只写自己的方向怎么样,还要提到别人的方向怎么样
  • 第三段, CNN很好,但是训练不动,有了GPu,算力能跟上, 可以train很大的东西,图片的数据集够大
  • 第4段:我们训练了一个最大的神经网络取得了待别好的结果,实现了GPU上,2D卷积||我们的网络有新的和不常见的featwes特性
  • section3,提升性能,减少训练时间
  • section4 做什么方法,可以避免过拟合
  • 左后 alexnet 有5个卷积层和3个全连接层,depth深度很重要
  • unusa features 新的没用过的东西可以做很大 ,新的技术来解爵过拟合,炫技,把很好的技木,拿了一个最好的成债对别人启发性不高,研究工作过于 复杂过于难以复现,可能做一简文章,但引用力手特别低,不仅做了很好,还有创新效果在里面。AlexNet(ectis
    GTx 580需要把网络切开放在GPU上

数据集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gZilfk7R-1657892214408)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657889865557.png)]

3.The Architecture架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-E8Ret4Zr-1657892214412)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657890360748.png)]

ReLU 非线性的东西,这些, these saturating nonlinearities非线性的激活函数,会比非饱和的非线性的激活函数更慢(“非饱和的非线性的激活函数f(x)=max(0,x)=ReLU,用了ReLU之后,效果而别好,特别faster”)epochs扫描多少遍数据,solid line实线,dashed line虚线

  • 能够训练的更快当然很重要,毕竟深度神经网络训练起来很贵,RELU和零比较最大值,不要去记tanh的公式和sigmoid的公式是什么,简单就是胜利

3.3Local Response Normalization

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-25IN1fAn-1657892214414)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657890968723.png)]

4 Reducing Overfitting

在这里插入图片描述
在这里插入图片描述

Details of learning

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Oy1JK6xv-1657892214417)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657891440972.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GWzJKjn1-1657892214418)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657891477187.png)]

启发

1,figure 4,那个vector后来拿来做线性分类

2.figuer2,CNN可以考虑长距离相关性(和RNN作比较的一个突出特征),可以从这里看出来一些(作者的图是在两个GPU训练的)

  • 提一嘴##州个人工智能##,CNN,(一张图片中有两个相似的狗头)
    • 用大的卷积核找图形中相关的A,B
    • 用小卷积核A,B.分别卷积,在后面的卷积中会相关

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5kaaDaR4-1657892214419)(C:\Users\张腾森\AppData\Roaming\Typora\typora-user-images\1657886744123.png)]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值