
Sequential Modeling Enables Scalable Learning for Large Vision Models
本文提出了一种新颖的顺序建模方法,可以在不使用任何语言数据的情况下学习大型视觉模型(LVM)。为此,我们定义了一种通用格式,“视觉句子”,在这种格式中,我们可以表示原始图像和视频以及带注释的数据源,如语义分割和深度重建,而无需超出像素之外的元知识。一旦这种广泛的视觉数据(包含(420)亿个tokens)被表示为序列,就可以训练模型以最小化下一个token预测的交叉熵损失。通过在不同规模的模型架构和数据多样性上进行训练,我们提供了实证证据,表明我们的模型可以有效地扩展。













