注1:本文系“最新论文速览”系列之一,致力于简洁清晰地介绍、解读最新的顶会/顶刊论文
视觉大模型论文速览 | Arxiv 2023,Sequential Modeling Enables Scalable Learning for Large Vision Models 连续建模实现大型视觉模型的Scalable Learning
Homepage: https://yutongbai.com/lvm.html
-
摘要
- 提出了一种新的连续建模方法,可以在无需任何语言数据的情况下学习大型视觉模型(LVM)
- 定义了“视觉句子”的通用格式,可以表示原始图像和视频,以及各种注释的数据源,而无需任何像素之外的元知识
- 当这种多样的视觉数据(420亿标记)表示为序列后,模型可以通过预测下一个标记来最小化交叉熵损失进行训练
- 通过在各种模型架构和数据多样性的尺度上进行训练,提供了模型可以有效扩展的经验证据
- 许多不同的视觉