【openMMLab AI实战营】第二天课程打卡

图像分类与基础视觉模型

什么是分类?
给定一张图片,识别图像中的物体是什么。

需要机器来解决这一问题,经历了很长的时间,机器不像人一样,它只能通过构造特征,设计模型,模型训练,预测,才能够得到最大可能性的结果。

在2012年AlexNet出现以后,深度学习时代开始了,Alex将传统视觉算法的性能拉涨了一大截,在2015年,卷积伸进网络超越传统方法。

卷积神经网络

AlexNet(2012)
第一个实现大规模图像的模型,在ImageNet上达到~85%的top-5精度
实现并开源了cuda-convnet,在GPU上训练大规模神经网络工程成为可能。

VGG(2014)
将大尺寸的卷积拆解为多层3x3的卷积,提高了感受野,并且有更少的参数

GoogleNet (2014)
使用Inception模块堆叠形成,22个可学层
ResNet (2015)
提出了残差模块,影响力更大

更强的图像分类模型

1、神经网络结构搜索(2016)
借助强化学习等方法搜索最佳网络
代表: NASNet(2017) MnasNet(2018)、EfficientNet(2019) RegBet(2020)

2、vision Transformer
使用Transformer替代卷积网络实现图像分类,使用更大的数据训练,达到超越卷积网络的精度。
代表:vit, swin-Transformer

3、convNeXt(2022)
将swin-Transformer的模型元素迁移到卷积神经网络中,性能反超Transformer

轻量化卷积神经网络

考虑到使用到便捷的设备上,边缘端,嵌入式,手机等等

1、mobleNetv1/v2/v3(2017~2019)家族
V1:使用可分离卷积,只有4.2M参数
V2/V3在 V1的基础上加入了残差模块和SE模块

2、ResNeXt
分组卷积的操作,降低模型计算量

Vision Transformer

多头注意力
加窗

模型学习

监督学习

  1. 标注数据集
  2. 定义损失函数
  3. 解一个最优化问题

自监督学习

学习优化器的策略

权重初始化

学习率退火Annealing
学习率升温
正则化权重衰减
自适应梯度算法
模型权重平均EMA
模型权重平均

数据增强

模型相关策略

丢弃层 dropout
随机深度

总结

本节课的内容很多,我暂时没有完全消化透彻,需要再结合实际使用的过程中进行补全。通过这节课有重温了深度学习图像分类的一个发展过程,对我后续的学习科研基础有加深课一步。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值