[论文阅读笔记]Sequential Modeling Enables Scalable Learning for Large Vision Models

[写在开头] 深度学习小白,如果有不对的地方请大家多指正,对说的就是你大佬!

摘要

在大规模无标注文本的训练下诞生的大语言模型在CV和NLP等领域都取得了突出的表现,受其启发,文章尝试探索只使用视觉知识的大视觉模型可行性, 在大视觉模型中复现大语言模型的scaling能力和上下文学习能力

这篇论文的贡献点主要有以下三个:

  1. 提出了一个包含1.64B的图片数据集 Unified Vision Dataset v1 (UVDv1)

  2. 提出了大视觉模型的初步架构 (VQGAN+LLaMA),

  3. 设计实验验证了大视觉模型的可行性,并提出了一系列针对下游任务的prompt方法

UVDv1数据集

相较于文本,大规模的图片数据更难获取。文章提出的UVDv1数据集由五部分组成: 无标注图片、有标注图片、无标注视频、有标注视频和3D合成图。其中无标注图片占 80% 以上(主要来自LAION5B)。

由于语言是天然的一维结构,而图片的结构更加复杂(二维、三维),在处理数据上,文章提出了将视觉序列(一个包含一张或者多张图片的序列+EOS) 作为大视觉模型的数据单元,让数据更加一体化和结构化。文章还花不小的篇幅详细讲了针对不同类型的数据怎么构建视觉序列,这里就略过了。

除此以外,文章还通过设计数据集消融试验(在文章自己提出的模型上)证明它提出的数据集的有效性。

方法

文章提出的方法分为两步: 1. 训练一个视觉tokenizer将图片映射为token 2. 在视觉token序列上训练一个transformer架构的模型。

主流的image tokenization的方法有两种,将图片分为几个patch,线性投影以后将其作为序列处理,或者使用预训练的 visual tokenizer将图片特征聚类成token,例如VQVAE和VQGAN。而文章采用的是后者,使用VQVAN处理一个视觉序列中的单张图片,这样做可以将tokenizer和transformer解耦合,训练tokenizer的时候可以不考虑视觉序列的分布。而在取token的时候,不加入指向任务类型的特殊token。

Transformer模型则沿用了LLaMA的架构。

Prompt

文章提出,通过设计不同的视觉prompt可以使大视觉模型适应不同的下游任务,并描述了几种prompt方法,包括Sequential Prompting、Analogy Prompting和Miscellaneous Prompts。文章提供的效果如下。

1.Sequential Prompting(序列提示): 给定一组视觉序列,让模型生成后续图片。

2.Analogy Prompting(类比提示): 把同一任务下的一系列图片和标注输入给模型,并提供一张Quary图片,模型生成结果,其中Quary图片可以和数据集同一分布,也可以不同分布(比如说绘画和草图)。

3.Miscellaneous Prompts(混合提示): 作者在文中也承认,这种prompt方法是为了探究,一些从未见过的prompt会对大视觉模型的推理产生怎么样的影响。Prompt方法就是,将一系列并不是同一任务的图片且跨度相差比较大的图片输入给模型,并提供一张Quary图片,分析模型输出。

实验

论文中并没有贴模型在下游任务上的指标。作者在文中承认,大视觉模型在特定下游任务的表现并不如一些专门针对这个任务的模型,文章主要是从大视觉模型的多任务泛化能力去考量的。

以上就是这篇论文Sequential Modeling Enables Scalable Learning for Large Vision Models的阅读笔记,这篇比较简单,感觉也写不出什么东西,不过它说的大视觉模型我觉得挺有意思。

创作不易,转载请注明出处。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值