【OpenMMLab】图片分类发展简史

一、发展简述

图片分类是CV领域的基础任务,也是检测、分割、追踪等任务的基石。简而言之,图片分类就是给定一张图片,判断其类别,一般而言所有的候选类别是预设的。

从数学上描述,图片分类就是寻找一个函数,将图片像素值映射为类别。对人类而言,丰富的先验知识让我们可以实下意识的进行判断。而对于计算机,如何根据抽象的像素数值判断其分类并不容易。

在深度学习之前,其典型做法是先人工设计特征,再通过机器学习模型或浅层网络结构进行训练。特征的设计严重依赖于经验和试验,虽然提出了HOG、SIF等特征算子,但在图像分类上的准确率并不理想。

随着神经网络的训练变得可行,人们从繁琐的特征工程中解脱出来,可以让大参数量的模型来自己完成特征的抽取和分类工作。

在 2012 年的竞赛中,来自多伦多大学的团队首次使用深度学习方法, 提出了AlexNet,一举将错误率降低至 15.3% ,而传统视觉算法的性能已经达到瓶颈,2015 年,卷积网络的性能超越人类。

围绕着加大网络深度提升预测效果、降低CNN卷积核参数量、提升模型效率等关键命题,科学家们先后提出了VGG、GoogLeNet、ResNet、EfficientNet等具有里程碑意义的模型。

在2020年之前,绝大多数的图像分类模型均借助于CNN技术,其网络架构也相对固定,包含卷积核、残差、池化单元和线性层等基本模块。
在这里插入图片描述
从2020年起,在自然语言处理大放异彩的Transformer模型结构开始被引入CV领域,并凭借其优异的表现迅速风靡CV圈。
在这里插入图片描述
另一方面,在CNN时代,绝大部分模型均是建立在ImageNet数据集上,虽然这是个大规模的1000分类数据集,但仍具有其局限性。随着Transformer在CV领域的快速发展,NLP大模型中被广泛采用的自监督、弱监督学习也开始在CV领域发力,诸如MAE(自监督)、SimCLR(对比学习)、CLIP(多模态)这样的工作极大的拓展了CV模型的外延。

二、展望

这是最好的时代,神经网络技术的快速发展极大的提高了AI的能力,让人们期待更好的未来。
这是最坏的时代,AI的发展让从业者们还是思考自己的发展。
但无论如何,历史的浪潮已经来临,无法阻挡,我们唯有去拥抱技术的发展和进步,努力成为这个浪潮里的一颗小水滴。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
图像领域的Transformer模型发展可以追溯到2018年的一篇重要论文:《Attention is All You Need》。这篇论文首次提出了Transformer模型,它在机器翻译任务上取得了显著的突破。该模型使用了自注意力机制(self-attention),不再使用传统的循环神经网络或卷积神经网络。 自注意力机制使模型能够对输入序列中的不同位置进行加权处理,从而更好地捕捉到长距离依赖关系。这对于图像领域的处理也很有潜力,因为图像中的像素之间存在着复杂的关联关系。 2019年,一篇名为《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》的论文进一步探索了将Transformer应用于图像领域。该论文提出了Vision Transformer(ViT)模型,将图像划分为固定大小的图块,并将这些图块转换为序列输入。 为了使Transformer适用于图像任务,论文还引入了一种预训练策略,即使用大规模的图像数据集进行无监督预训练,然后在特定任务上进行微调。这种策略使得ViT模型在多个图像分类基准数据集上取得了与卷积神经网络相媲美的性能。 除了ViT模型,还有一些其他的Transformer模型在图像领域得到了应用。例如,DeiT模型(Data-efficient Image Transformers)使用了一种叫做Distillation的方法,将大型的Transformer模型的知识传递给较小的模型,从而实现更高效的训练。 总的来说,Transformer模型在图像领域的发展还比较年轻,但已经取得了令人瞩目的成果。未来,我们可以期待看到更多基于Transformer的图像处理模型的出现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值