01-AlexNet的学习笔记

以下为个人学习心得,仅供参考

一、ImageNet数据集与ILSVRC之间的关系

1.ImageNet 数据集包含 21841 个类别, 14,197,122张图片,其通过WordNet对类别进行分组,使数据集的语义信息更合理,非常适合图像识别。

2.ILSVRC(ImageNet Large Scale Visual Recognition Challenge ):大规模图像识别挑战赛,是李飞飞等人于2010年创办的图像识别挑战赛,自 2010起连续举办8年,极大地推动计算机视觉发展。
比赛项目涵盖:图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视 频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)

3.ILSVRC-2012 从ImageNet中挑选1000类的 1,200,000张作为训练集
ImageNet的官方网站

二、AlexNet训练过程的数据增强中,针对位置,采用什么方法将一张图片有可能变为2048张不一样的图片(1个像素值不一样,也叫不一样)

对于输入图片我们需要按照以下顺序做一些处理:
1.对输入图片改变尺寸:对短边先缩放
2.然后在图片中心采取256 * 256大小的图片
3.对256 * 256的图片进行随机选取224 * 224大小的图片,总共有32 * 32=1024个可能(说明:256-224=32)
4.最后对图片进行水平翻转,现在图片共有1024*2=2048。

总结:对图片进行数据增强,相当于增大了数据集,有利于提高精度。

train_transform = transforms.Compose([
        transforms.Resize((256)),      # 注意与(256, 256)-正方形 区别  只有一个实数的话,转换后的的保留长宽比
        transforms.CenterCrop(256),    #然后在图片中心采取256*256大小的图片
        transforms.RandomCrop(224),    #再然后对上面的图片进行随机选取224*224大小的图片,总共有32*32=1024
        transforms.RandomHorizontalFlip(p=0.5), #再对上面的图片进行水平翻转,现在图片共有1024*2=2048
        transforms.ToTensor(),
        transforms.Normalize(norm_mean, norm_std),
    ])

三、AlexNet使用的Dropout,在使用过程中需要注意的事项

1.Dropout的作用:减轻过拟合
2.注意的事项:训练和测试阶段的数据尺度的变化,训练集Dropout的失活率一般取0.5,在测试时就需要对神经元输出值乘以0.5。

四、读完该论文,对我有以下启发点

1.AlexNet网络深度与宽度可决定网络能力
原文句子:Their capacity can be controlled by varying their depth and breadth.(1 Introduction p2)
2. 更强大GPU及更多数据可进一步提高模型性能
All of our experiments suggest that our results can be improved simply by waiting for faster GPUs and bigger datasets to become available. (1 Introduction p5).
3.图片缩放细节,对短边先缩放
Given a rectangular image, we first rescaled the image such that the shorter side was of length 256, and then cropped out the central 256×256 patch from the resulting image.(2 Dataset p3)
4.ReLU不需要对输入进行标准化来防止饱和现象,即说明sigmoid/tanh激活函数有必要对输入进行标准化
ReLUs have the desirable property that they do not require input normalization to prevent them from saturating(3.3 LRN p1)
5. 卷积核可以学习到频率、方向和颜色特征
The network has learned a variety of frequency- and orientation-selective kernels, as well as various colored blobs.(6.1 p1)
6.相似图片具有“相近”的高级特征(欧式距离较小)
If two images produce feature activation vectors with a small Euclidean separation, we can say that the higher levels of the neural network consider them to be similar.(6.1 p3)
7.图像检索可基于高级特征,效果应该优于基于原始图像
This should produce a much better image retrieval method than applying autoencoders to the raw pixels.(6.1 p4)
8.网络结构具有相关性,不可轻易移除某一层
It is notable that our network’s performance degrades if a single convolutional layer is removed.(7 Discussion p1)
9.采用视频数据,可能有新突破
Ultimately we would like to use very large and deep convolutional nets on video sequences.(7 Discussion p2)

五、代码实践:在猫狗数据集上,对比采用预训练模型和不采用预训练模型这两种情况,训练曲线有何差异

1.采用预训练模型,误差下降并稳定在0.1附近。因此,好的模型能够加快收敛
采用预模型训练
2.不采用预训练模型,误差值不下降,学习效果极差
在这里插入图片描述

六、本篇论文的学习笔记及总结

1.关键点

  1. 大量带标签数据——ImageNet
  2. 高性能计算资源——GP
  3. 合理算法模型——深度卷积神经网络

2.创新点

  1. 采用ReLu加快大型神经网络训练
  2. 采用LRN提升大型网络泛化能力(但该方法在如今很少被使用,因为提升效果非常有限)
  3. 采用Overlapping Pooling提升指标
  4. 采用随机裁剪翻转及色彩扰动增加数据多样性
  5. 采用Drpout减轻过拟合
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值