LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

发表时间:1 Jun 2023 论文链接:https://arxiv.org/pdf/2306.00890 作者单位:Microsoft

Motivation会话生成 AI 在为生物医学从业者赋能方面显示出显着的前景,但目前的研究主要集中在单模态文本上。多模态会话 AI 通过利用来自公共网络的数十亿个图像-文本对取得了快速进展,但这种通用域视觉语言模型在理解和谈论生物医学图像方面仍然缺乏复杂性

解决方法:在本文中,我们提出了a cost-efficient approach 来训练视觉语言会话助手,该方法可以回答生物医学图像的开放式研究问题。

实现方式关键思想是利用从 PubMed Central 中提取的大规模、广泛覆盖的生物医学图形字幕数据集,使用 GPT-4 从字幕中自我构建开放式指令跟踪数据,然后使用一种新颖的curriculum learning method微调大型通用域视觉语言模型。具体来说,该模型首先学习使用图-标题对对齐生物医学词汇,然后学习使用 GPT-4 生成的指令跟踪数据掌握开放式对话语义,广泛模仿外行者如何逐渐获得生物医学知识。

  1. 我们提出了一种新的数据生成pipline来创建不同的(图像、指令、输出)实例,通过从 PMC-15M 中采样生物医学图像-文本对并使用 GPT-4 仅从文本创建指令(成为预期输出)。这需要零手动注释,并通过搭载 PMC-15 创建了一个极其多样化的视觉指令跟踪数据集,该数据集涵盖了生物医学图像上研究发现的全部范围。

  1. 我们提出了一种新的curriculum learning method,使用我们的自生成的生物医学多模态指令跟踪数据集将 LlaVA [24] 适应生物医学领域(两个阶段)。具体来说,我们首先微调 LLaVA 使用图像文本对来对齐生物医学词汇(模态之间的语义对齐-第一阶段训练),如(通用指令简单地要求描述图像)。然后,我们继续使用我们的自生成的指令跟踪数据来训练模型(使用指令微调适应医学任务需求-第二阶段end to end训练),以学习开放式对话语义。

生成了两个数据集:

  • Biomedical Concept Alignment Data.(训练的第一阶段使用)

  • Biomedical Instruction-Tuning Data.(训练的第二阶段使用)

利用生成的data进行两阶段训练,延续了LLaVA的two-stage训练的方式:

  • 第一阶段:Biomedical Concept Feature Alignment:为了在概念覆盖率和训练效率之间取得平衡,我们将 PMC-15M 过滤为 600K 图像-文本对。这些对使用朴素扩展方法转换为指令跟踪数据:指令简单地呈现描述图像的任务。对于每个样本,给定语言指令和图像输入,我们要求模型预测原始标题。In training, we keep both the visual encoder and LM weights frozen, and only update the projection matrix.(与LLaVA一样)

  • 第二阶段:End-to-End Instruction-Tuning:We only keep the visual encoder weights frozen, and continue to update both the pre-trained weights of the projection layer and LLM (与LLaVA一样).我们通过在第 3 节中收集的生物医学语言图像指令跟踪数据上微调我们的模型来开发生物医学聊天机器人。如后面要描述的实验所示,该阶段的 LLAVA-Med 模型不仅能够作为生物医学视觉助手与用户进行交互,而且在在完善的生物医学 VQA 数据集上进行评估时也取得了良好的零样本任务迁移性能(后面的实验证明了各个阶段的训练是重要的)。

实验为了评估 LlaVA-Med 在生物医学多模态对话上的性能,我们构建了一个包含 193 个新问题的评估数据集。对于这个测试数据集,我们从 PMC-15M 中随机选择 50 个看不见的图像和字幕对,并生成两种类型的问题:对话和详细描述。

结论我们的实证研究验证了特定领域指令调整的有效性,并揭示了将多模态会话助手适应high-value verticals的最佳实践和有趣的发现。

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming__chen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值