浅谈视觉超大模型

本文探讨了视觉领域的超大模型,如ViT、V-MOE、Swin Transformer、CoAtNet和CoCa,分析了它们的结构、性能及在下游任务中的表现。这些模型基于Transformer进行改进,展现出强大的性能。尽管大模型在应用落地方面仍面临挑战,但未来CV大模型有望在更多场景中发挥作用。
摘要由CSDN通过智能技术生成

人工智能可以分为几个发展阶段:基于数据的互联网时代、基于算力的云计算时代,以及接下来进入的基于模型的 AI 时代。随着 GPT-3 的横空出世,这个具有 1750 亿参数的通用预训练模型让人们看到了“超大模型”实现通用人工智能的潜力, 之后越来越多学术机构和企业加入“炼大模型”的行列,Google 推出的 Switch Transformer 模型,更是将参数量提升到 1.6 万亿, 成为人类历史上首个万亿级语言模型。但是视觉领域的大模型目前仍处于初步摸索阶段,本文主要对现有的视觉超大模型进行简单介绍, 并对大模型的应用和未来发展趋势进行分析。

盘古 cv

盘古大模型由 NLP 大模型、CV 大模型、多模态大模型、科学计算大模型多个大模型构成,通过模型泛化, 解决传统 AI 作坊式开发模式下不能解决的 AI 规模化、产业化难题。

盘古 CV 使用基于全局的对比度自监督学习方法。在预训练算法里面,集成了十余种数据增强方法, 使得整个模型具有针对不同数据增强的不变性。盘古 CV 大模型搭载模型蒸馏、抽取以及行业大模型, 已经适配了大概十余种预训练模型,在相应的行业上,得到了非常大的精度提升。同时也极大的减少了标注代价以及模型迭代周期。

ViT(Vision Transformer)

模型整体结构上,

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值