【openMMLab AI实战营】第二天课程打卡

RuojiFW

于 2023-02-03 13:41:26 发布

阅读量48

点赞数

文章标签：人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KINGjunT/article/details/128864667

版权

图像分类与基础视觉模型

什么是分类？
给定一张图片，识别图像中的物体是什么。

需要机器来解决这一问题，经历了很长的时间，机器不像人一样，它只能通过构造特征，设计模型，模型训练，预测，才能够得到最大可能性的结果。

在2012年AlexNet出现以后，深度学习时代开始了，Alex将传统视觉算法的性能拉涨了一大截，在2015年，卷积伸进网络超越传统方法。

卷积神经网络

AlexNet（2012）
第一个实现大规模图像的模型，在ImageNet上达到~85%的top-5精度
实现并开源了cuda-convnet，在GPU上训练大规模神经网络工程成为可能。

VGG（2014）
将大尺寸的卷积拆解为多层3x3的卷积，提高了感受野，并且有更少的参数

GoogleNet （2014）
使用Inception模块堆叠形成，22个可学层
ResNet （2015）
提出了残差模块，影响力更大

更强的图像分类模型

1、神经网络结构搜索（2016）
借助强化学习等方法搜索最佳网络
代表: NASNet（2017） MnasNet(2018)、EfficientNet（2019） RegBet（2020）

2、vision Transformer
使用Transformer替代卷积网络实现图像分类，使用更大的数据训练，达到超越卷积网络的精度。
代表：vit， swin-Transformer

3、convNeXt（2022）
将swin-Transformer的模型元素迁移到卷积神经网络中，性能反超Transformer

轻量化卷积神经网络

考虑到使用到便捷的设备上，边缘端，嵌入式，手机等等

1、mobleNetv1/v2/v3（2017~2019）家族
V1:使用可分离卷积，只有4.2M参数
V2/V3在 V1的基础上加入了残差模块和SE模块

2、ResNeXt
分组卷积的操作，降低模型计算量

Vision Transformer

多头注意力
加窗

模型学习

监督学习

标注数据集
定义损失函数
解一个最优化问题

自监督学习

学习优化器的策略

权重初始化

学习率退火Annealing
学习率升温
正则化权重衰减
自适应梯度算法
模型权重平均EMA
模型权重平均

数据增强

模型相关策略

丢弃层 dropout
随机深度

总结

本节课的内容很多，我暂时没有完全消化透彻，需要再结合实际使用的过程中进行补全。通过这节课有重温了深度学习图像分类的一个发展过程，对我后续的学习科研基础有加深课一步。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【openMMLab AI实战营】第二天课程打卡

OpenMMLabAI实战营打卡
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。