【OpenMMLab】图片分类发展简史

最新推荐文章于 2024-03-31 00:30:07 发布

guofei_fly

最新推荐文章于 2024-03-31 00:30:07 发布

阅读量1.7k

点赞数

分类专栏： CV 文章标签：分类深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guofei_fly/article/details/128877481

版权

CV 专栏收录该内容

3 篇文章

订阅专栏

一、发展简述

图片分类是CV领域的基础任务，也是检测、分割、追踪等任务的基石。简而言之，图片分类就是给定一张图片，判断其类别，一般而言所有的候选类别是预设的。

从数学上描述，图片分类就是寻找一个函数，将图片像素值映射为类别。对人类而言，丰富的先验知识让我们可以实下意识的进行判断。而对于计算机，如何根据抽象的像素数值判断其分类并不容易。

在深度学习之前，其典型做法是先人工设计特征，再通过机器学习模型或浅层网络结构进行训练。特征的设计严重依赖于经验和试验，虽然提出了HOG、SIF等特征算子，但在图像分类上的准确率并不理想。

随着神经网络的训练变得可行，人们从繁琐的特征工程中解脱出来，可以让大参数量的模型来自己完成特征的抽取和分类工作。

在 2012 年的竞赛中,来自多伦多大学的团队首次使用深度学习方法, 提出了AlexNet，一举将错误率降低至 15.3% ，而传统视觉算法的性能已经达到瓶颈，2015 年,卷积网络的性能超越人类。

围绕着加大网络深度提升预测效果、降低CNN卷积核参数量、提升模型效率等关键命题，科学家们先后提出了VGG、GoogLeNet、ResNet、EfficientNet等具有里程碑意义的模型。

在2020年之前，绝大多数的图像分类模型均借助于CNN技术，其网络架构也相对固定，包含卷积核、残差、池化单元和线性层等基本模块。
在这里插入图片描述
从2020年起，在自然语言处理大放异彩的Transformer模型结构开始被引入CV领域，并凭借其优异的表现迅速风靡CV圈。

另一方面，在CNN时代，绝大部分模型均是建立在ImageNet数据集上，虽然这是个大规模的1000分类数据集，但仍具有其局限性。随着Transformer在CV领域的快速发展，NLP大模型中被广泛采用的自监督、弱监督学习也开始在CV领域发力，诸如MAE（自监督）、SimCLR（对比学习）、CLIP（多模态）这样的工作极大的拓展了CV模型的外延。

二、展望

这是最好的时代，神经网络技术的快速发展极大的提高了AI的能力，让人们期待更好的未来。
这是最坏的时代，AI的发展让从业者们还是思考自己的发展。
但无论如何，历史的浪潮已经来临，无法阻挡，我们唯有去拥抱技术的发展和进步，努力成为这个浪潮里的一颗小水滴。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。