LLaVA 1.0:Visual Instruction Tuning

发表时间:NeurIPS 2023

论文链接:https://proceedings.neurips.cc/paper_files/paper/2023/file/6dcf277ea32ce3288914faf369fe6de0-Paper-Conference.pdf 作者单位:University of Wisconsin–Madison

Motivation:使用机器生成的指令跟踪数据对大型语言模型 (LLM) 进行指令调整已被证明可以提高新任务的零样本能力,但在多模态领域研究较少。

解决方法:我们提出了首次尝试使用仅语言 GPT-4 来生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整,我们引入了 LLAVA:大型语言模型和视觉助手,这是一种端到端训练的大型多模态模型,连接视觉编码器和 LLM 以实现通用视觉和语言理解。为了促进未来对视觉指令的研究,我们构建了两个具有不同且具有挑战性的面向应用的任务的评估基准

实现方式

1. 数据收集:

LLaVA 利用 ChatGPT/GPT-4 作为强大的教师,创建涉及视觉内容的指令跟随数据。为了将图像编码为 LLM 可识别的序列,使用两种符号表示:

  1. 字幕(Captions):从各个角度描述视觉场景。

  2. 边界框(Bounding boxes):通常定位场景中的对象,每个框编码对象概念及其空间位置。

LLaVA 收集了总共 158K 个唯一的语言-图像指令跟随样本,包括对话、详细描述和复杂推理三种类型的响应。

2.模型结构

主要目标是有效地利用预先训练的LLM和视觉模型的能力。

图像编码器ViT-L/14, 文本编码器Vicuna。Vison Token与Language Token指令在同一个特征空间,一起拼接(concantate)一起送进大模型。

下面这个图看着更清晰(图片来自StableLLaVA论文),绿色部分的answers是我们要预测的

3.训练方式 :LLaVA 采用两阶段指令调优过程:(都是Instruction Tuning

  1. 特征对齐的预训练:在 CC-595K 上预训练,仅更新投影矩阵,使图像特征与预训练的 LLM 词嵌入对齐。

  2. 端到端微调:在 LLaVA-Instruct-158K 上微调,同时更新投影层和 LLM 的预训练权重。(让大语言模型具有理解文本和图片的对话能力。

问题:两个阶段使用的图片数据,instruction following数据不同。有什么讲究?

第一阶段是将image和text特征进行对齐,是一个预训练过程,使用相对简单、大量的单轮指令就OK了。

第二阶段是让大语言模型理解图片和文本,并具有多轮对话能力,是一个微调过程,使用相对复杂、一定量的多轮指令才行。

总的来说, LLaVA 的训练成本相对较低, 主要得益于 CC-595K 数据集的精简和较少的训练轮数。整个训练过程约 24,233 steps,使用 8 个 A100 GPU 18 小时内完成,在大规模多模态模型训练中非常高效。

实验我们通过两个主要实验设置评估 LLAVA 在指令跟随和视觉推理能力方面的性能:多模态聊天机器人和 ScienceQA 数据集。

从COCO test2017中随机抽取了30张图片,使用同样的数据生成流水线生成三类问题,共生成90个问题,加上图片的caption和bounding boxes,去问GPT-4和LLaVA。将两个模型的结果,feed给GPT-4,让它从有用性、相关性、准确性和详尽性几个方面对结果进行打分,分值为1到10分。并给出打分的全面的解释。

评估结果呈现出以下几个特点:

  1. 没有微调,效果很差,只能达到GPT-4大约21.5%左右的水平。加上对话类型数据微调,能达到GPT-4大约73.8%左右的水平。

  2. 只使用详细描述和复杂推理数据,能达到GPT-4大约81.9%左右的水平。所以理解能力的提升对对话能力的提升非常重要。

  3. 所有三类数据都用上,能达到GPT-4大约85.1%左右的水平

结论提出了一个自动pipline来创建语言图像指令跟踪数据,在此基础上我们训练 LLAVA,这是一种多模态模型,以遵循人类意图来完成视觉任务。

LLaVA 比 BLIP-2 强的原因:

这个模型看起来比 BLIP-2 更强,我想到的原因有两个:

  1. 使用了 GPT-4 生成的数据,用于做 finetune,带来了更强的理解能力

  2. 训练了 LLM 的部分,让其可以吸收 GPT-4 传入的强大的理解能力 因为 BLIP-2 只训练了 Q-former。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming__chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值