ViT作者、谷歌大脑研究员翟晓华：大规模视觉表征学习

智源社区

于 2021-06-16 18:15:00 发布

阅读量1.4k

点赞数 1

文章标签：算法大数据 python 计算机视觉机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/117970946

版权

智源导读：从2020年，Transformer开始在CV领域大放异彩。ViT（Vision Transformer）是Google在2020年提出的直接将transformer应用在图像分...

摘要由CSDN通过智能技术生成

智源导读：从2020年，Transformer开始在CV领域大放异彩。ViT（Vision Transformer）是Google在2020年提出的直接将transformer应用在图像分类的模型，后面很多的工作都是基于ViT进行改进的。

ViT模型的共同作者、来自谷歌大脑的翟晓华研究员针对“大规模视觉表征学习”，深入讲解了谷歌大脑在视觉大模型上的工作进展和应用情况，重点分享了BiT和ViT这两项工作。

翟晓华，现任瑞士苏黎世谷歌大脑团队研究员，研究方向为表征学习、深度学习、人工智能。他于2014年在北京大学获得博士学位。他负责的大规模迁移学习算法“Big Transfer (BiT)”基于亿级规模图像数据来预训练模型，在超过二十个视觉任务上取得良好的效果；作为共同一作，他提出的ViT将Transformer模型应用于图像识别，取得了与计算机视觉领域的主流模型CNN相当的效果。这两个特征学习项目及模型已开源，在GitHub上共获得3800个星标。

整理：肖健

翟晓华研究员以人类如何对图像进行分类为切入点，发现人类可以根据物体的形状、颜色和样式很容易地完成分类问题。

使用计算机解决图像分类问题时，现在的主流算法是应用卷积神经网络，它通过使用一个滑动的窗口（卷积核），仅仅处理图像上的局部区域，再通过共享参数，在多个特征图谱中找到图像里的预定模式，而且这个学习非常的高效。这就是现在使用的比较主流的表征学习方法。

对于一般性或者泛化的视觉表征学习，这个问题的定义在于：首先给一个大规模的预训练数据集，我们的目标是获得一个预训练模型，然后再通过设计一些适配算法，让这个模型、数据以及这个算法一起应用到小样本数据的下游任务。我们希望表征学习能够像人类一样思考，能解决所有的任务。

如下图，在视觉任

最低0.47元/天解锁文章

智源社区

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
ViT作者、谷歌大脑研究员翟晓华：大规模视觉表征学习

智源导读：从2020年，Transformer开始在CV领域大放异彩。ViT（Vision Transformer）是Google在2020年提出的直接将transformer应用在图像分...
复制链接

扫一扫