[arxiv论文阅读]连续建模实现大型视觉模型的可扩展学习-Sequential Modeling Enables Scalable Learning for Large Vision Models

最新推荐文章于 2024-08-21 22:49:00 发布

王知为

最新推荐文章于 2024-08-21 22:49:00 发布

阅读量112

点赞数

分类专栏：机器视觉文章标签：论文阅读学习

本文链接：https://blog.csdn.net/oneway3124/article/details/135172809

版权

机器视觉专栏收录该内容

8 篇文章 1 订阅

订阅专栏

[arxiv论文阅读]连续建模实现大型视觉模型的可扩展学习-Sequential Modeling Enables Scalable Learning for Large Vision Models
Bai, Y., Geng, X., Mangalam, K., Bar, A., Yuille, A., Darrell, T., Malik, J., & Efros, A. A. (2023). Sequential Modeling Enables Scalable Learning for Large Vision Models. In arXiv [cs.CV]. arXiv. http://

Yutong Bai[37]在2023年，发表了《Sequential Modeling Enables Scalable Learning for Large Vision Models》，我们引入了一种新颖的序列建模方法，可以在不使用任何语言数据的情况下学习大型视觉模型（LVM）。为实现这一目标，我们定义了一种通用格式，即“视觉句子”，在其中我们可以表示原始图像和视频，以及带有语义分割和深度重建等注释数据源，而无需任何超越像素的元知识。一旦这种广泛的视觉数据（包括4200亿个标记）被表示为序列，模型可以通过训练来最小化下一个标记预测的交叉熵损失。通过跨模型架构和数据多样性的各种尺度进行训练，我们提供了实证证据表明我们的模型具有有效的可扩展性。在测试时，通过设计合适的视觉提示，可以解决许多不同的视觉任务。

（1）引言部分
大型语言模型（LLMs）如GPT [11]和LLaMA [80]已经风靡全球。要构建一个大型视觉模型（LVM）需要什么？从动物世界的角度来看，我们知道视觉能力并不依赖于语言。特别是，许多实验证明非人类灵长类动物的视觉世界与人类的非常相似。因此，虽然像LLaVA [54]这样的视觉语言模型的领域是有趣且值得追求的，但在本文中，我们寻求回答一个不同的问题 - 在仅从像素出发，我们能走多远？
我们试图在LVM中模仿的当代LLMs的关键特征是：1）在大数据存在的情况下进行扩展，以及2）通过提示（上下文学习）对任务进行灵活规定。我们如何实现这一目标？和往常一样，有三个必须明确定义的主要组件：
数据：我们希望利用视觉数据中的所有出色多样性。首先是原始未注释的图像和视频。接下来，我们希望利用过去几十年产生的各种注释视觉数据源的多样性 - 语义分割，深度重建，关键点，3D对象的多个视图等等。我们定义了一个通用格式，“视觉句子”，以在其中表示这些不同的注释，而无需超越像素的任何元知识。我们的训练数据集的总大小为16.4亿张图像/帧。
架构：我们使用一个大型的transformer架构（30亿个参数），该架构在将视觉数据表示为标记序列的情况下进行训练，使用了一个学习的分词器，将每个图像映射到一个由256个矢量量化标记组成的字符串。
损失函数：我们从自然语言社区汲取灵感，其中遮蔽标记建模已被顺序自回归预测取代。一旦图像/视频/注释图像都可以表示为序列，我们可以训练模型以最小化交叉熵损失，用于预测下一个标记。
通过这种极其简单的设计，我们展示了一些值得注意的行为：
• 随着模型大小和数据大小的增加，适当的扩展行为。
• 现在可以通过在测试时设计合适的提示来“解决”许多不同的视觉任务。虽然结果的性能不如专门训练的定制模型那么高，但一个单一的视觉模型解决了如此多的任务的事实相当令人鼓舞。
• 我们看到无监督数据对各种标准视觉任务的性能有明显的好处。
• 我们看到一些一般视觉推理的能力 - 处理分布之外的数据，并执行新颖的任务。但还需要进一步的调查。
（2）相关研究
预训练视觉模型。使用预训练模型（例如ImageNet预训练的AlexNet [46]）的价值早在2015年R-CNN [35]中就已经得到证明，此后已经成为计算机视觉的标准做法。自监督预训练被提出作为一种极大增加用于预训练的数据量的方法[17, 26, 38, 62, 63, 99]。不幸的是，这并不是非常成功，很可能是因为当时基于CNN的架构没有足够的容量来吸收这些数据。随着Transformer的引入[84]，其容量大大提高，研究人员重新审视了自监督预训练，并展示了基于Transformer的遮蔽图像重建方法，如BEiT [7]，MAE [39]，SimMIM [91]，表现远远优于其基于CNN的对应物[63]。然而，尽管它们最近取得了成功，但当前的仅用于视觉的预训练模型在扩展到像LAION [72]这样的真正大型数据集时遇到了困难。
多任务学习和上下文学习。从经典的每个任务一个模型的设置中，计算机视觉正慢慢过渡到一个单一模型执行多个不同任务的模式。存在各种多任务学习方法[25, 41, 44, 73, 97]，但它们通常限制于固定的、预定义的任务数量。最近，受LLMs中上下文学习启发的方法抛弃了任务的任何概念，而是让模型直接从输入提示中推断任务。例如，Visual Prompting [8, 87]在测试时接收任务输入/输出示例对和一个查询图像，将它们连接成一个2x2的图像，并使用修补来生成所需的输出。但由于修补是使用MAE [39]的变体执行的，这些方法也继承了与扩展相关的相同问题。
自回归视觉模型。使用自回归模型合成视觉数据的想法至少可以追溯到70年前。受到Shannon使用N-grams合成语言的启发[74, 75]，许多作品，从Attneave的具有开创性意义的1954年的论文[5]开始，将这一想法应用于顺序合成像素[29, 32, 40, 65]，图像块[28]，视频帧[69]和动作捕捉数据[4, 45, 49]。随着深度模型的流行，较新的作品用RNN或CNN替代N-grams进行像素合成[81, 82]。最近，基于Transformer的自回归视觉生成方法已经被提出[16, 30, 94, 96]，并与语言结合，展示了令人印象深刻的图像合成结果，例如Parti [95]。
（3）数据
任何大型预训练模型的关键要求是它必须在大量的数据上进行训练。对于语言模型来说，非常大且非常多样化的数据集相对容易获取。例如，流行的Common Crawl存储库[1]包含了跨足整个互联网的2500亿个网页，具有极高的多样性，并包括语言翻译、问答等"自然演示"。在计算机视觉领域，我们距离拥有一种相当规模和多样性的数据源仍然相当遥远。我们工作的一个核心贡献是朝着构建这样一个数据集的第一步，我们称之为Unified Vision Dataset v1（UVDv1）。为了组装它，我们利用了许多不同的视觉数据源：（1）未标记的图像，（2）带有视觉注释的图像，（3）未标记的视频，（4）带有视觉注释的视频，和（5）3D合成物体。未标记的图像占据了我们数据的80%以上，捕捉了我们视觉世界的大横截面，并以较低质量的代价提供了所需的多样性。带有注释的图像具有更受限制的分布，但通常质量较高。视频数据甚至更受限制（通常限于人类中心的活动），但是是时间数据的宝贵来源。3D合成物体的渲染多样性最低，但可以提供有关3D结构行为的有价值的提示。重要的是，UVDv1是一个纯粹的视觉数据集，不包含非视觉元数据（例如文本）。总的来说，UVDv1包含16.4亿张图像。与大型语言模型的另一个重要区别是，语言数据具有所有数据的自然、统一的一维结构——一串文本。不幸的是，对于视觉数据来说，不同的来源具有不同的结构。在这项工作中，我们提出将视觉句子作为视觉数据的统一单元，这使我们能够从各种来源训练可扩展的模型。视觉句子只是一个包含一个或多个图像，后跟一个句子结束（EOS）标记的序列。图1显示了各种数据源如何被划分为视觉句子。特别是：

单个图像。单个图像本身代表了视觉句子的最简单形式 - {图像，EOS}。我们使用LAION 5B[71]数据集的经过筛选的子集，其中包含14.9亿张图像[88]。这是我们数据的最大部分，占据了总数据量的88.5%。

图像序列。图像序列是视觉句子的一种自然形式。我们通过从各种现有数据集[12, 13, 22, 36, 37, 47, 51, 52, 56, 58–60, 64, 68, 76–78, 92, 93]中获取视频数据来创建这样的序列。通过在三个不同的步幅（10、20和30）下随机采样视频，形成了16帧的视觉句子。此外，我们还利用Objaverse数据集[23]中的合成3D对象，为各种对象生成以对象为中心的多视图序列。对于每个对象，我们从1.5到2.2之间采样一个半径长度，并从-45度到45度之间采样一个常数高度，然后通过以15度的步长更改方位角来遍历对象的不同视图，并渲染24个视图。我们总共为训练渲染了42000个这样的序列，测试用8000个。最后，我们还可以将属于同一语义类别的图像表示为（部分）序列。我们使用ImageNet中的类别，将同一类别的图像组（2、4、8或16张）连接成一条16张图像的长视觉句子。

带有注释的图像。为了以统一的方式处理不同类型的图像注释，我们选择将所有注释表示为图像。一些数据类型，例如语义分割图[100]、边缘图[79]、深度[66]和法线图[6]，已经以这种方式表示。对于其他类型，我们针对每种特定的注释类型采用定制的方法：1）目标检测：我们通过在每个对象周围叠加彩色边界框来创建注释，遵循[15]中的方法；2）人体姿势：人体骨架在像素空间中呈现，遵循OpenPose格式，利用MMPose[20]；3）深度估计、表面法线和边缘检测：鉴于ImageNet和COCO图像，我们按照[55]的协议生成注释。3）风格转移[9]、去雨[98]、去噪[85]、低光增强[89]和立体数据集[34]：这些都表示为图像对（例如输入/输出）。4）着色：我们将ImageNet图像转换为灰度，生成图像对。5）修补：该过程涉及在图像中随机添加黑色框以模拟损坏，从而产生图像对。对于上述所有注释类型，我们可以通过将同一注释类型的8个图像对连接成一条16张图像的视觉句子。

带有注释的图像序列。在将带有注释的视频数据（VIPSeg [57]，Hand14K [31]，AVA [60]，JHMDB [42]）转换为视觉句子时，我们采用两种互补的策略。第一种类似于我们对带有配对注释的图像数据的处理方式：每个视觉句子由帧和它们的注释连接而成 - {frame1, annot1, frame2, annot2, …}。第二种方法涉及将多个帧与它们相应的注释分组 - {frame1, frame2, annot1, annot2, …}。我们在附录中详细总结了UVDv1的所有数据源、注释类型和数据统计。

（4）LVM的社交媒体评价
注：
不同的声音：如何评价UC伯克利提出的LVM，计算机视觉的GPT时刻来了吗？ - 知乎 (zhihu.com)
题主：谢凌曦，清华大学 · 计算机科学与技术，华为 · 高级研究员（推测为博士）439认同
“还是先说结论：这个工作确实把上下文的视觉任务带到了新的高度，但它绝对不是什么视觉的GPT时刻。
再多说一句：这是一个优秀的工作，根本不需要碰瓷GPT来彰显自己的价值。事实上，作者也没有这样做。在原文里，除了introduction的第一句，其他地方根本就没有出现GPT这个字眼。可是我们某些公众号，自行脑补了什么GPT时刻，然后就开始吹捧，活脱脱像个____。难道不提GPT就不会说话了吗？
要想达成视觉的GPT时刻，现在的基础设施建设还远远不够。尤其是，视觉需要一个充分复杂的交互环境和足够丰富的任务（包括收集各种instruction），而按照现在的技术水平，这样的基础设施建设，即使整个业界共同努力，在顺利找到方向的前提下，至少还需要3-5年。”

实际上，将视觉in-context learning扩展到了序列上，相当于提升了一个维度，所以能够支持的prompt形式也更加丰富，能够完成更复杂的推理。往远处看，在视觉交互环境构建起来后，我们也需要一种能够“预测下一帧”的基础模型，届时这篇文章的技术很可能会发挥更大的作用。

王知为

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
[arxiv论文阅读]连续建模实现大型视觉模型的可扩展学习-Sequential Modeling Enables Scalable Learning for Large Vision Models

为了组装它，我们利用了许多不同的视觉数据源：（1）未标记的图像，（2）带有视觉注释的图像，（3）未标记的视频，（4）带有视觉注释的视频，和（5）3D合成物体。不幸的是，对于视觉数据来说，不同的来源具有不同的结构。受到Shannon使用N-grams合成语言的启发[74, 75]，许多作品，从Attneave的具有开创性意义的1954年的论文[5]开始，将这一想法应用于顺序合成像素[29, 32, 40, 65]，图像块[28]，视频帧[69]和动作捕捉数据[4, 45, 49]。带有注释的图像序列。
复制链接

扫一扫