LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day-CSDN博客

本文链接：https://blog.csdn.net/s_m_c/article/details/140920648

发表时间：1 Jun 2023

论文链接：https://arxiv.org/pdf/2306.00890

作者单位：Microsoft

Motivation：会话生成 AI 在为生物医学从业者赋能方面显示出显着的前景，但目前的研究主要集中在单模态文本上。多模态会话 AI 通过利用来自公共网络的数十亿个图像-文本对取得了快速进展，但这种通用域视觉语言模型在理解和谈论生物医学图像方面仍然缺乏复杂性。

解决方法：在本文中，我们提出了a cost-efficient approach 来训练视觉语言会话助手，该方法可以回答生物医学图像的开放式研究问题。

实现方式：关键思想是利用从 PubMed Central 中提取的大规模、广泛覆盖的生物医学图形字幕数据集，使用 GPT-4 从字幕中自我构建开放式指令跟踪数据，然后使用一种新颖的curriculum learning method微调大型通用域视觉语言模型。具体来说，该模型首先学习使用图-标题对对齐生物医学词汇，然后学习使用 GPT-4 生成的指令跟踪数据掌握开放式对话语义，广泛模仿外行者如何逐渐获得生物医学知识。

我们提出了一种新的数据生成pipline来创建不同的（图像、指令、输出）实例，通过从 PMC-15M 中采样生物医学图像-文本对并使用 GPT-4 仅从文本创建指令（成为预期输出）。这需要零手动注释，并通过搭载 PMC-15 创建了一个极其多样化的视觉指令跟踪数据集，该数据集涵盖了生物医学图像上研究发现的全部范围。

我们提出了一种新的curriculum learning method，使用我们的自生成的生物医学多模态指令跟踪数据集将 LlaVA [24] 适应生物医学领域（两个阶段）。具体来说，我们首先微调 LLaVA 使用图像文本对来对齐生物医学词汇（模态之间的语义对齐-第一阶段训练），如（通用指令简单地要求描述图像）。然后，我们继续使用我们的自生成的指令跟踪数据来训练模型（使用指令微调适应医学任务需求-第二阶段end to end训练），以学习开放式对话语义。

生成了两个数据集：

Biomedical Concept Alignment Data.（训练的第一阶段使用）
Biomedical Instruction-Tuning Data.（训练的第二阶段使用）

利用生成的data进行两阶段训练，延续了LLaVA的two-stage训练的方式：

第一阶段：Biomedical Concept Feature Alignment：为了在概念覆盖率和训练效率之间取得平衡，我们将 PMC-15M 过滤为 600K 图像-文本对。这些对使用朴素扩展方法转换为指令跟踪数据：指令简单地呈现描述图像的任务。对于每个样本，给定语言指令和图像输入，我们要求模型预测原始标题。In training, we keep both the visual encoder and LM weights frozen, and only update the projection matrix.（与LLaVA一样）
第二阶段：End-to-End Instruction-Tuning：We only keep the visual encoder weights frozen, and continue to update both the pre-trained weights of the projection layer and LLM （与LLaVA一样）.我们通过在第 3 节中收集的生物医学语言图像指令跟踪数据上微调我们的模型来开发生物医学聊天机器人。如后面要描述的实验所示，该阶段的 LLAVA-Med 模型不仅能够作为生物医学视觉助手与用户进行交互，而且在在完善的生物医学 VQA 数据集上进行评估时也取得了良好的零样本任务迁移性能（后面的实验证明了各个阶段的训练是重要的）。