[arxiv论文阅读]连续建模实现大型视觉模型的可扩展学习-Sequential Modeling Enables Scalable Learning for Large Vision Models

[arxiv论文阅读]连续建模实现大型视觉模型的可扩展学习-Sequential Modeling Enables Scalable Learning for Large Vision Models
Bai, Y., Geng, X., Mangalam, K., Bar, A., Yuille, A., Darrell, T., Malik, J., & Efros, A. A. (2023). Sequential Modeling Enables Scalable Learning for Large Vision Models. In arXiv [cs.CV]. arXiv. http://

Yutong Bai[37]在2023年,发表了《Sequential Modeling Enables Scalable Learning for Large Vision Models》,我们引入了一种新颖的序列建模方法,可以在不使用任何语言数据的情况下学习大型视觉模型(LVM)。为实现这一目标,我们定义了一种通用格式,即“视觉句子”,在其中我们可以表示原始图像和视频,以及带有语义分割和深度重建等注释数据源,而无需任何超越像素的元知识。一旦这种广泛的视觉数据(包括4200亿个标记)被表示为序列,模型可以通过训练来最小化下一个标记预测的交叉熵损失。通过跨模型架构和数据多样性的各种尺度进行训练,我们提供了实证证据表明我们的模型具有有效的可扩展性。在测试时,通过设计合适的视觉提示,可以解决许多不同的视觉任务。

(1)引言部分
大型语言模型(LLMs)如GPT [11]和LLaMA [80]已经风靡全球。要构建一个大型视觉模型(LVM)需要什么?从动物世界的角度来看,我们知道视觉能力并不依赖于语言。特别是,许多实验证明非人类灵长类动物的视觉世界与人类的非常相似。因此,虽然像LLaVA [54]这样的视觉语言模型的领域是有趣且值得追求的,但在本文中,我们寻求回答一个不同的问题 - 在仅从像素出发,我们能走多远?
我们试图在LVM中模仿的当代LLMs的关键特征是:1)在大数据存在的情况下进行扩展,以及2)通过提示(上下文学习)对任务进行灵活规定。我们如何实现这一目标?和往常一样,有三个必须明确定义的主要组件:
数据:我们希望利用视觉数据中的所有出色多样性。首先是原始未注释的图像和视频。接下来,我们希望利用过去几十年产生的各种注释视觉数据源的多样性 - 语义分割,深度重建,关键点,3D对象的多个视图等等。我们定义了一个通用格式,“视觉句子”,以在其中表示这些不同的注释,而无需超越像素的任何元知识。我们的训练数据集的总大小为16.4亿张图像/帧。
架构:我们使用一个大型的transformer架构(30亿个参数),该架构在将视觉数据表示为标记序列的情况下进行训练,使用了一个学习的分词器,将每个图像映射到一个由256个矢量量化标记组成的字符串。
损失函数:我们从自然语言社区汲取灵感,其中遮蔽标记建模已被顺序自回归预测取代。一旦图像/视频/注释图像都可以表示为序列,我们可以训练模型以最小化交叉熵损失,用于预测下一个标记。
通过这种极其简单的设计,我们展示了一些值得注意的行为:
• 随着模型大小和数据大小的增加,适当的扩展行为。
• 现在可以通过在测试时设计合适的提示来“解决”许多不同的视觉任务。虽然结果的性能不如专门训练的定制模型那么高,但一个单一的视觉模型解决了如此多的任务的事实相当令人鼓舞。
• 我们看到无监督数据对各种标准视觉任务的性能有明显的好处。
• 我们看到一些一般视觉推理的能力 - 处理分布之外的数据,并执行新颖的任务。但还需要进一步的调查。
(2)相关研究
预训练视觉模型。使用预训练模型(例如ImageNet预训练的AlexNet [46])的价值早在2015年R-CNN [35]中就已经得到证明,此后已经成为计算机视觉的标准做法。自监督预训练被提出作为一种极大增加用于预训练的数据量的方法[17, 26, 38, 62, 63, 99]。不幸的是,这并不是非常成功,很可能是因为当时基于CNN的架构没有足够的容量来吸收这些数据。随着Transformer的引入[84],其容量大大提高,研究人员重新审视了自监督预训练,并展示了基于Transformer的遮蔽图像重建方法,如BEiT [7],MAE [39],SimMIM [91],表现远远优于其基于CNN的对应物[63]。然而,尽管它们最近取得了成功,但当前的仅用于视觉的预训练模型在扩展到像LAION [72]这样的真正大型数据集时遇到了困难。
多任务学习和上下文学习。从经典的每个任务一个模型的设置中,计算机视觉正慢慢过渡到一个单一模型执行多个不同任务的模式。存在各种多任务学习方法[25, 41, 44, 73, 97],但它们通常限制于固定的、预定义的任务数量。最近,受LLMs中上下文学习启发的方法抛弃了任务的任何概念,而是让模型直接从输入提示中推断任务。例如,Visual Prompting [8, 87]在测试时接收任务输入/输出示例对和一个查询图像,将它们连接成一个2x2的图像,并使用修补来生成所需的输出。但由于修补是使用MAE [39]的变体执行的,这些方法也继承了与扩展相关的相同问题。
自回归视觉模型。使用自回归模型合成视觉数据的想法至少可以追溯到70年前。受到Shannon使用N-grams合成语言的启发[74, 75],许多作品,从Attneave的具有开创性意义的1954年的论文[5]开始,将这一想法应用于顺序合成像素[29, 32, 40, 65],图像块[28],视频帧[69]和动作捕捉数据[4, 45, 49]。随着深度模型的流行,较新的作品用RNN或CNN替代N-grams进行像素合成[81, 82]。最近,基于Transformer的自回归视觉生成方法已经被提出[16, 30, 94, 96],并与语言结合,展示了令人印象深刻的图像合成结果,例如Parti [95]。
(3)数据
任何大型预训练模型的关键要求是它必须在大量的数据上进行训练。对于语言模型来说,非常大且非常多样化的数据集相对容易获取。例如,流行的Common Crawl存储库[1]包含了跨足整个互联网的2500亿个网页,具有极高的多样性,并包括语言翻译、问答等"自然演示"。在计算机视觉领域,我们距离拥有一种相当规模和多样性的数据源仍然相当遥远。我们工作的一个核心贡献是朝着构建这样一个数据集的第一步,我们称之为Unified Vision Dataset v1(UVDv1)。为了组装它,我们利用了许多不同的视觉数据源:(1)未标记的图像,(2)带有视觉注释的图像,(3)未标记的视频,(4)带有视觉注释的视频,和(5)3D合成物体。未标记的图像占据了我们数据的80%以上,捕捉了我们视觉世界的大横截面,并以较低质量的代价提供了所需的多样性。带有注释的图像具有更受限制的分布,但通常质量较高。视频数据甚至更受限制(通常限于人类中心的活动),但是是时间数据的宝贵来源。3D合成物体的渲染多样性最低,但可以提供有关3D结构行为的有价值的提示。重要的是,UVDv1是一个纯粹的视觉数据集,不包含非视觉元数据(例如文本)。总的来说,UVDv1包含16.4亿张图像。与大型语言模型的另一个重要区别是,语言数据具有所有数据的自然、统一的一维结构——一串文本。不幸的是,对于视觉数据来说,不同的来源具有不同的结构。在这项工作中,我们提出将视觉句子作为视觉数据的统一单元,这使我们能够从各种来源训练可扩展的模型。视觉句子只是一个包含一个或多个图像,后跟一个句子结束(EOS)标记的序列。图1显示了各种数据源如何被划分为视觉句子。特别是:

单个图像。单个图像本身代表了视觉句子的最简单形式 - {图像,EOS}。我们使用LAION 5B[71]数据集的经过筛选的子集,其中包含14.9亿张图像[88]。这是我们数据的最大部分,占据了总数据量的88.5%。

图像序列。图像序列是视觉句子的一种自然形式。我们通过从各种现有数据集[12, 13, 22, 36, 37, 47, 51, 52, 56, 58–60, 64, 68, 76–78, 92, 93]中获取视频数据来创建这样的序列。通过在三个不同的步幅(10、20和30)下随机采样视频,形成了16帧的视觉句子。此外,我们还利用Objaverse数据集[23]中的合成3D对象,为各种对象生成以对象为中心的多视图序列。对于每个对象,我们从1.5到2.2之间采样一个半径长度,并从-45度到45度之间采样一个常数高度,然后通过以15度的步长更改方位角来遍历对象的不同视图,并渲染24个视图。我们总共为训练渲染了42000个这样的序列,测试用8000个。最后,我们还可以将属于同一语义类别的图像表示为(部分)序列。我们使用ImageNet中的类别,将同一类别的图像组(2、4、8或16张)连接成一条16张图像的长视觉句子。

带有注释的图像。为了以统一的方式处理不同类型的图像注释,我们选择将所有注释表示为图像。一些数据类型,例如语义分割图[100]、边缘图[79]、深度[66]和法线图[6],已经以这种方式表示。对于其他类型,我们针对每种特定的注释类型采用定制的方法:1)目标检测:我们通过在每个对象周围叠加彩色边界框来创建注释,遵循[15]中的方法;2)人体姿势:人体骨架在像素空间中呈现,遵循OpenPose格式,利用MMPose[20];3)深度估计、表面法线和边缘检测:鉴于ImageNet和COCO图像,我们按照[55]的协议生成注释。3)风格转移[9]、去雨[98]、去噪[85]、低光增强[89]和立体数据集[34]:这些都表示为图像对(例如输入/输出)。4)着色:我们将ImageNet图像转换为灰度,生成图像对。5)修补:该过程涉及在图像中随机添加黑色框以模拟损坏,从而产生图像对。对于上述所有注释类型,我们可以通过将同一注释类型的8个图像对连接成一条16张图像的视觉句子。

带有注释的图像序列。在将带有注释的视频数据(VIPSeg [57],Hand14K [31],AVA [60],JHMDB [42])转换为视觉句子时,我们采用两种互补的策略。第一种类似于我们对带有配对注释的图像数据的处理方式:每个视觉句子由帧和它们的注释连接而成 - {frame1, annot1, frame2, annot2, …}。第二种方法涉及将多个帧与它们相应的注释分组 - {frame1, frame2, annot1, annot2, …}。我们在附录中详细总结了UVDv1的所有数据源、注释类型和数据统计。

(4)LVM的社交媒体评价
注:
不同的声音:如何评价UC伯克利提出的LVM,计算机视觉的GPT时刻来了吗? - 知乎 (zhihu.com)
题主:谢凌曦,清华大学 · 计算机科学与技术,华为 · 高级研究员(推测为博士)439认同
“还是先说结论:这个工作确实把上下文的视觉任务带到了新的高度,但它绝对不是什么视觉的GPT时刻。
再多说一句:这是一个优秀的工作,根本不需要碰瓷GPT来彰显自己的价值。事实上,作者也没有这样做。在原文里,除了introduction的第一句,其他地方根本就没有出现GPT这个字眼。可是我们某些公众号,自行脑补了什么GPT时刻,然后就开始吹捧,活脱脱像个____。难道不提GPT就不会说话了吗?
要想达成视觉的GPT时刻,现在的基础设施建设还远远不够。尤其是,视觉需要一个充分复杂的交互环境和足够丰富的任务(包括收集各种instruction),而按照现在的技术水平,这样的基础设施建设,即使整个业界共同努力,在顺利找到方向的前提下,至少还需要3-5年。”

实际上,将视觉in-context learning扩展到了序列上,相当于提升了一个维度,所以能够支持的prompt形式也更加丰富,能够完成更复杂的推理。往远处看,在视觉交互环境构建起来后,我们也需要一种能够“预测下一帧”的基础模型,届时这篇文章的技术很可能会发挥更大的作用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值