OpenMMLab 实战营打卡 - 第 2 课

一 什么是图像分类

给定一张图片,识别图像中的物体是什么。

1.1 问题的数学表示

图像是像素构成的数组,对类别进行编号,图像分类问题就是 构建一个可计算实现的函数,通过模型训练,拟合这个函数关系。
图像分类

1.2 视觉任务的难点

图像的内容是像素整体呈现出来的结果,和个别像素的值没有直接关联,难以遵循具体的规则设计算法,需要对全局图片的像素值投喂进计算机,让计算机看懂全局。像上面的图一样,把一张图片转换为tensor的形式。

1.3 视觉任务一般流程

对数据进行处理
收集数据
定义模型
训练模型 寻找最佳参数

最后就是应用模型了。

二 机器学习识别图像的局限性

机器学习算法善于处理低维度,分布相对简单的数据,图像数据在十几万维的空间中以复杂的方式“缠绕”在一起常规的机器学习算法难以处理这种复杂数据分布。
机器学习算法的难点

2.1 传统方法:设计图像特征(1990-2000)

机器学习
方向梯度直方图:在局部区域统计像素梯度的方向的分布,将图像映射成一个相对低维的特征向量,同时能够保留有用信息。

2.2 特征工程的天花板

在ImageNet图像识别挑战赛中,2010和2011年的冠军队伍都使用了经典的视觉算法,基于手工设计特征+机器学习算法实现图像分类。受限于人类的智慧,手工设计特征更多局限在像素层面的计算,丢失信息过多,在视觉任务三的性能达到瓶颈。
下面看如下图,特征工程 到 特征学习
特征
卷积 实现一步特征提取,特征和图像一样具有二维空间结构,后层特征为空间领域内前层特征的加权求和。(卷积神经网络)
卷积
多头注意力 实现一步特征提取。(Transformer)
Trans

三 深度学习时代的开始

在2012年的竞赛中,来自多伦多大学的团队首次使用深度学习方法,在ImageNet中错误率降低至15.3%,而传统视觉算法的性能达到瓶颈,2015年,卷积网络的性能超越人类。

3.1 AlexNet网络(2012)

  • 第一个成功实现大规模图像的模型,在ImageNet数据集上达到85%的Top-5准确率
  • 五个卷积层,3个全链接层,共有60M个可学习参数
  • 使用ReLU函数激活,大幅度提高收敛速度
  • 实现并开源了cuda-convnet,在GPU上训练大规模神经网络在工程上称为可能
    AlexNet论文: ImageNet Classification with Deep Convolutional Neural Networks
    AlexNet结构图

3.2 VGG(2014)

将大尺寸的卷积拆解为多层3X3的卷积
相同的感受野、更少的参数量、更多的层数和表达能力
一层 5X5的卷积与两层3X3的卷积有同样的感受野
参数更改

  • 网络层数:11,13,16,19
  • 3X3的卷积配合1像素的边界填充,维持空间分辨率
  • 每隔几层倍增通道数、减半分辨率,生成1/2、1/4尺度的更高抽象层级的特征
  • 不同层次的特征在尺寸上有简单的比例关系,方便在位置敏感的下游任务中使用,如检测、分割等
    VGG论文: [1409.1556] Very Deep Convolutional Networks for Large-Scale Image Recognition
    VGG

3.3 GoogLeNet(Inception V1,2014)

  • 使用inception模块堆叠形成,22个可学习层
  • 最后的分类仅使用单层全链接,可节省大量参数
  • 仅7M权重参数(AlexNet60M,VGG 138M)
    但是 模型层数增加到一定程度后,分类正确率不增反降

3.4 残差学习(ResNet)

思路:让新增加的层拟合浅层网络与深层网络之间的差异,更容易学习梯度可以直接回传到浅层网络监督浅层网络的学习,没有引入额外参数,让参数更有效贡献到最终模型。
残差

3.4.1 ResNet34

34层ImageNet Top-5准确率 94.4%
ResNet34

  • 5级,每级包含若干残差模块,不同残差模块个数不同
  • 每级输出分辨率减半,通道倍增
  • 全局平均池化,压缩空间维度
  • 单层全链接产生类别概率

四 更强的图像分类模型

神经结构搜索

基本思路:借助强化学习等个方法搜索表现最佳的网络
代表工作:NASNet(2017)MnasNet(2018)EfficientNet(2019)RegNet(2020)等

Vision Transformers

基本思路:使用Transformer替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
代表工作:Vision Transformer,Swin-Transformer

ConvNeXt

将Swin Transformer的模型元素迁移到卷积网络中,性能反超Transformer

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值