VLM系列文章3-VILA（On Pre-training for Visual Language Models）

alxe_made

于 2024-07-30 16:32:24 发布

阅读量348

点赞数 4

分类专栏： VLM 文章标签：语言模型人工智能自然语言处理 VILA

本文链接：https://blog.csdn.net/alxe_made/article/details/140799941

版权

7 篇文章 0 订阅

订阅专栏

论文：https://arxiv.org/abs/2312.07533

在这里插入图片描述

最近的一些工作在设计桥接器时候主要有两种范式，一种是交叉注意的，另外一种是自回归的（将视觉token作为LLM的prefix），后者慢慢成为主流；考虑EMU、flamigo等工作的ICL能力，作者这里发现llava系列ICL能力并不work，随着样本增加反而效果较差。
在这里插入图片描述

在这里插入图片描述

然后作者设计了几组对比试验：在设置（a）-（c）时用Transformer块来代替单个线性层[38]，这在冻结LLM时提供了足够的容量。用MMC4-core[70]进行比较

发现：

（1）尽管使用了高容量设计，但在SFT期间仅训练投影器会导致性能不佳（设置a）。在SFT期间微调LLM是值得的。
（2）有趣的是，在预训练期间冻结LLM不会影响零样本性能，但会降低上下文学习能力（即，4-样本，比较设置b和c）。字幕数据集（COCO和Flickr）的差距甚至更大，因为它们是分布式的（指令调整数据大多与VQA相似），在冻结LLM时显示出较差的泛化能力。
（3）当使用小容量投影器（线性层而不是Transformer块）时，精度略高（比较设置c和设置d）。假设一个更简单的投影器迫使LLM学习更多关于处理视觉输入的知识，从而获得更好的泛化能力。

在这里插入图片描述

主要有两种类型数据：

交错数据结构很重要，但与文本分布无关。自然进一步质疑这些好处是来自更好的文本分布（例如，更长）还是来自交错性质。为了对这一点做消融，构建一个新的MMC4变型，只保留图像及其相应的文本片段，不考虑交错性质，称为“MMC4对”;

在这里插入图片描述
发现：

与字幕数据（COYO）相比，对MMC4数据的预训练提供了更好的视觉-语言准确性（零样本和少样本）和纯文本准确性下降较小。
好处来自交织特性，但不是更好的文本分布（MMC4和MMC4对）。混合交织和字幕数据提供了更好的多样性和下游精度
对MMC4预训练的损失较低，因这表明全文片段提供了更多的信息。因此，交错数据结构至关重要，它允许模型拣取与图像相关的信息，而不会过度强迫去学习不相关的文本建模。
对图像-文本对的训练只会导致纯文本准确性的急剧下降（超过17%）。幸运的是，混合的语料库和图像-文本对可以在语料库中引入更多的多样性，同时也防止了严重的退化。MMC4+COYO上的训练进一步提高了视觉-语言基准测试的准确性。