LLaVA 1.0：Visual Instruction Tuning

本文链接：https://blog.csdn.net/s_m_c/article/details/140920512

发表时间：NeurIPS 2023

论文链接：https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf

作者单位：University of Wisconsin–Madison

Motivation：使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力，但在多模态领域研究较少。

解决方法：我们提出了首次尝试使用仅语言 GPT-4 来生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整，我们引入了 LLAVA：大型语言模型和视觉助手，这是一种端到端训练的大型多模态模型，连接视觉编码器和 LLM 以实现通用视觉和语言理解。为了促进未来对视觉指令的研究，我们构建了两个具有不同且具有挑战性的面向应用的任务的评估基准。

实现方式：

1. 数据收集：

LLaVA 利用 ChatGPT/GPT-4 作为强大的教师，创建涉及视觉内容的指令跟随数据。为了将图像编码为 LLM 可识别的序列，使用两种符号表示：

字幕（Captions）：从各个角度描述视觉场景。
边界框（Bounding boxes）：通常定位场景中的对象，每个框编码对象概念及其空间位置。

LLaVA 收集了总共 158K 个唯一的语言-图像指令跟随样本，包括对话、详细描述和复杂推理三种类型的响应。

2.模型结构

主要目标是有效地利用预先训练的LLM和视觉模型的能力。

图像编码器ViT-L/14, 文本编码器Vicuna。Vison Token与Language Token指令在同一个特征空间，一起拼接（concantate）一起送进大模型。

下面这个图看着更清晰（图片来自StableLLaVA论文），绿色部分的answers是我们要预测的：

3.训练方式：LLaVA 采用两阶段指令调优过程：（都是Instruction Tuning）

特征对齐的预训练：在 CC-595K 上预训练，仅更新投影矩阵，使图像特征与预训练的 LLM 词嵌入对齐。
端到端微调：在 LLaVA-Instruct-158K 上微调，同时更新投影层和 LLM 的预训练权重。（让大语言模型具有理解文本和图片的对话能力。

问题：两个阶段使用的图片数据，instruction following数据不同。有什么讲究？

第一阶段是将image和text特征进行对齐，是一个预训练过程，使用相对简单、大量的单轮指令就OK了。

第二阶段是让大语言模型理解图片和文本，并具有多轮对话能力，是一个微调过程，使用相对复杂、一定量的多轮指令才行。

总的来说, LLaVA 的训练成本相对较低, 主要得益于 CC-595K 数据集的精简和较少的训练轮数。整个训练过程约 24,233 steps,使用 8 个 A100 GPU 18 小时内完成,在大规模多模态模型训练中非常高效。

实验：我们通过两个主要实验设置评估 LLAVA 在指令跟随和视觉推理能力方面的性能：多模态聊天机器人和 ScienceQA 数据集。

从COCO test2017中随机抽取了30张图片，使用同样的数据生成流水线生成三类问题，共生成90个问题，加上图片的caption和bounding boxes，去问GPT-4和LLaVA。将两个模型的结果，feed给GPT-4，让它从有用性、相关性、准确性和详尽性几个方面对结果进行打分，分值为1到10分。并给出打分的全面的解释。

评估结果呈现出以下几个特点：