【OpenMMLab】图片分类发展简史

一、发展简述

图片分类是CV领域的基础任务,也是检测、分割、追踪等任务的基石。简而言之,图片分类就是给定一张图片,判断其类别,一般而言所有的候选类别是预设的。

从数学上描述,图片分类就是寻找一个函数,将图片像素值映射为类别。对人类而言,丰富的先验知识让我们可以实下意识的进行判断。而对于计算机,如何根据抽象的像素数值判断其分类并不容易。

在深度学习之前,其典型做法是先人工设计特征,再通过机器学习模型或浅层网络结构进行训练。特征的设计严重依赖于经验和试验,虽然提出了HOG、SIF等特征算子,但在图像分类上的准确率并不理想。

随着神经网络的训练变得可行,人们从繁琐的特征工程中解脱出来,可以让大参数量的模型来自己完成特征的抽取和分类工作。

在 2012 年的竞赛中,来自多伦多大学的团队首次使用深度学习方法, 提出了AlexNet,一举将错误率降低至 15.3% ,而传统视觉算法的性能已经达到瓶颈,2015 年,卷积网络的性能超越人类。

围绕着加大网络深度提升预测效果、降低CNN卷积核参数量、提升模型效率等关键命题,科学家们先后提出了VGG、GoogLeNet、ResNet、EfficientNet等具有里程碑意义的模型。

在2020年之前,绝大多数的图像分类模型均借助于CNN技术,其网络架构也相对固定,包含卷积核、残差、池化单元和线性层等基本模块。
在这里插入图片描述
从2020年起,在自然语言处理大放异彩的Transformer模型结构开始被引入CV领域,并凭借其优异的表现迅速风靡CV圈。
在这里插入图片描述
另一方面,在CNN时代,绝大部分模型均是建立在ImageNet数据集上,虽然这是个大规模的1000分类数据集,但仍具有其局限性。随着Transformer在CV领域的快速发展,NLP大模型中被广泛采用的自监督、弱监督学习也开始在CV领域发力,诸如MAE(自监督)、SimCLR(对比学习)、CLIP(多模态)这样的工作极大的拓展了CV模型的外延。

二、展望

这是最好的时代,神经网络技术的快速发展极大的提高了AI的能力,让人们期待更好的未来。
这是最坏的时代,AI的发展让从业者们还是思考自己的发展。
但无论如何,历史的浪潮已经来临,无法阻挡,我们唯有去拥抱技术的发展和进步,努力成为这个浪潮里的一颗小水滴。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值