ViT作者、谷歌大脑研究员翟晓华:大规模视觉表征学习

智源导读:从2020年,Transformer开始在CV领域大放异彩。ViT(Vision Transformer)是Google在2020年提出的直接将transformer应用在图像分...
摘要由CSDN通过智能技术生成

智源导读:从2020年,Transformer开始在CV领域大放异彩。ViT(Vision Transformer)是Google在2020年提出的直接将transformer应用在图像分类的模型,后面很多的工作都是基于ViT进行改进的。

ViT模型的共同作者、来自谷歌大脑的翟晓华研究员针对“大规模视觉表征学习”,深入讲解了谷歌大脑在视觉大模型上的工作进展和应用情况,重点分享了BiT和ViT这两项工作。

翟晓华,现任瑞士苏黎世谷歌大脑团队研究员,研究方向为表征学习、深度学习、人工智能。他于2014年在北京大学获得博士学位。他负责的大规模迁移学习算法“Big Transfer (BiT)”基于亿级规模图像数据来预训练模型,在超过二十个视觉任务上取得良好的效果;作为共同一作,他提出的ViT将Transformer模型应用于图像识别,取得了与计算机视觉领域的主流模型CNN相当的效果。这两个特征学习项目及模型已开源,在GitHub上共获得3800个星标。

整理:肖健

翟晓华研究员以人类如何对图像进行分类为切入点,发现人类可以根据物体的形状、颜色和样式很容易地完成分类问题。

使用计算机解决图像分类问题时,现在的主流算法是应用卷积神经网络,它通过使用一个滑动的窗口(卷积核),仅仅处理图像上的局部区域,再通过共享参数,在多个特征图谱中找到图像里的预定模式,而且这个学习非常的高效。这就是现在使用的比较主流的表征学习方法。

 

对于一般性或者泛化的视觉表征学习,这个问题的定义在于:首先给一个大规模的预训练数据集,我们的目标是获得一个预训练模型,然后再通过设计一些适配算法,让这个模型、数据以及这个算法一起应用到小样本数据的下游任务。我们希望表征学习能够像人类一样思考,能解决所有的任务。

如下图,在视觉任

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值