(2024|EMNLP|港中文,多模态数据去噪和重格式化,PubMedVision 数据集,HuatuoGPT-Vision)

HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale

目录

1. 引言

1.1 关键词

2. 医学视觉对齐在 MLLM 中的应用

2.1 现有医学 VQA 数据

2.2 数据工程视角下的医学视觉对齐

3. PubMedVision 数据集

3.1 数据收集

3.2 MLLM 重格式化

4. 实验

4.1 实验设置

4.2 PubMedVision 的有效性

4.3 数据质量

5. 相关工作

5.1 多模态大语言模型

5.2 医学 MLLM

5.3 医学 VQA 数据集

6. 结论


1. 引言

多模态大语言模型(如 GPT-4V)在医学领域的表现受限,主要原因包括:

  • 医学视觉知识数据规模小且质量不稳定;
  • 医学数据的隐私和授权问题;
  • PubMed 尽管提供了大量去标识化的医学图像和文本,但数据噪声严重,影响模型性能。

为解决数据隐私和高标注成本导致的医学视觉-文本数据稀缺问题,本文从 PubMed 中提炼医学图像-文本对,利用 GPT-4V 进行 “非盲” 数据去噪和重格式化,构建了包含 130 万条医学视觉问答样本的 PubMedVision 数据集。

实验证明,PubMedVision 显著提升了 MLLM 的医学多模态能力,并基于该数据集训练了 34B 参数的 HuatuoGPT-Vision 模型,在多个医学多模态基准测试中表现突出。

1.1 关键词

多模态大语言模型(MLLMs)、医学视觉知识、PubMedVision、HuatuoGPT-Vision、数据去噪、视觉问答(VQA)、医学多模态能力、数据集构建、医疗图像、GPT-4V

2. 医学视觉对齐在 MLLM 中的应用

2.1 现有医学 VQA 数据

现有数据集如 VQA-RAD、SLAKE 等规模小且集中于放射学,LLaVA-Med 等数据集尽管利用了 PubMed,但数量有限且存在视觉信息缺失和误解的问题。PubMedVision 目标是构建更大规模、更高质量的医学 VQA 数据集。

2.2 数据工程视角下的医学视觉对齐

视觉知识对齐:MLLM 通过视觉编码器注入医学图像知识,实现图像与语言理解的对齐。

PubMed 数据噪声:PubMed 文本描述与图像不总是准确对应,影响视觉对齐效果。

提高数据质量的努力:本文提出使用 MLLM 进行重格式化(MLLM-Reformatted),比仅使用文本 LLM 生成描述的方法更准确。

  • 原始数据并不总是适合用于训练
  • 与 PubMed 中的 原生描述(Native Captions)相比,现有工作使用 仅文本LLM 对图像的标题进行重格式化,称为 LLM 重格式化(LLM-Reformatted),这可能导致对图像的误解或文本与图像的不匹配,因为LLM是 “盲” 的(无法直接感知图像)。
  • 为了解决这个问题,我们提出使用 多模态 LLM,称为 MLLM 重格式化(LLM-Reformatted)
  • 此外,我们还将其与 GPT4v-蒸馏(GPT4v-Distill)进行比较,这是在通用多模态领域中蒸馏GPT-4V的一种流行方法,例如ShareGPT4V ALLaVA-4V。在GPT4v-蒸馏方法中,我们仅向GPT-4V提供图像以生成医学描述。

案例分析。图 1 展示了这些方法生成的示例。它表明:

  • 原生描述(Native-Caption)存在歧义,并包含与图像无关的内容。
  • LLM 重格式化(LLM-Reformatted)将三张子图误解为一张 CT 切片,导致描述具有误导性,且未能排除无关内容。
  • GPT4v-蒸馏(GPT4v-Distill)由于缺乏上下文文本,生成了事实性错误的描述。
  • 相比之下,MLLM 重格式化(MLLM-Reformatted)通过利用视觉信息和上下文线索,生成了更优质的描述,准确且完整地描述了图像的关键信息。

3. PubMedVision 数据集

3.1 数据收集

整合了 LLaVA-Med PMC、PMC-Inline 和 PMC-OA 数据,通过医学词汇过滤、低分辨率图像剔除、语义去重等步骤,最终筛选出 91.4 万张医学图像及其文本,构建 130 万条 VQA 数据。

3.2 MLLM 重格式化

使用 GPT-4V 根据输入图像和语境文本生成详细的医学图像描述 d、图像特定问题 q 和相应答案 a(如图 2 所示),覆盖多种医疗场景(如医生与患者对话、医生间讨论、AI 辅助等)。

PubMedVision 包含 64.7 万条对齐 VQA 和 64.7 万条指令调优 VQA 数据。

对齐 VQA(Alignment VQA)。我们预定义一个问题 q′,并将其与图像描述 d 结合起来形成对齐 VQA (q′, a)。这种详细的图像描述有助于学习从图像到文本的对齐。

  • 对齐 VQA 基于生成的图像描述 d 和从预定义问题集中采样的问题 q′。
  • 如果涉及多张图像,则从多图像问题集(图 8)中采样 q′,否则从单图像问题集(图 7)中采样。

指令调整 VQA(Instruction-Tuning VQA)。我们使用 MLLM 生成的问题 q 和答案 a 作为指令调整 VQA (q, a),以增强指令遵循能力和图像理解能力。

  • 与对齐 VQA 不同,问题是由 MLLM 专门针对图像生成的。
  • 为了使生成的 q 多样化,我们设计了八种不同的场景(示例见原文附录 D)。我们将场景设置随机抽样到合成提示中,以使 MLLM 能够生成更多不同的问题。
    • 标准问答场景提示:制作标准问答场景的指南。
    • 医生与患者家属场景提示:一位关心的家属向医生询问患者的病情。
    • 医生与医生场景提示:医生之间就医学图像进行专业讨论的场景。
    • 实习生与专科医生场景提示:实习生提出问题,专科医生根据医学图像提供详细、翔实的答案的模拟对话。
    • 医学教师与学生场景提示:模拟教育互动,教师提示学生分析医学图像并提出可能的诊断。
    • 资深医生与实习生场景提示:资深医生通过基于医学图像的问题测试实习生的观察和分析能力的模拟对话。
    • 医生和难缠患者场景提示:模拟对话,医生耐心地向持怀疑态度的患者传达诊断结果,使用图像数据以易于理解的方式解释病情,并解决所有疑问以建立信任。
    • 评估者和人工智能模型场景提示:模拟交互,质量控制团队成员评估人工智能模型分析复杂医学图像的能力。
    • 人工智能模型协助医生场景提示:模拟对话,医生咨询人工智能模型有关医学图像中的细节,以提高诊断准确性。
    • 人工智能模型协助患者场景提示:模拟对话,人工智能模型解释患者医学图像上的细节,旨在澄清患者的疑问,同时强调最终解释由专业医生做出。

4. 实验

4.1 实验设置

采用 LLaVA-1.5 架构与 LLaMA-3-8B 进行训练,比较了只用 LLaVA 数据、结合 LLaVA-Med 数据和结合 PubMedVision 数据的模型性能。

4.2 PubMedVision 的有效性

医学 VQA 基准:PubMedVision 使模型在 VQA-RAD、SLAKE 等基准上提升 11.7% 准确率,优于 LLaVA_Med。

OmniMedVQA 评估:在 8 种医学成像模式上,PubMedVision 训练的模型提高了 26.3% 准确率。

MMMU 医学赛道:PubMedVision 使模型在 MMMU 健康与医学赛道上超越其他开源模型,接近更大参数模型的性能。

4.3 数据质量

专家评分显示,MLLM-Reformatted 方法在准确性、相关性、完整性和实用性上均表现最佳,验证了 PubMedVision 数据的高质量。

5. 相关工作

5.1 多模态大语言模型

近年来,多模态大语言模型(MLLMs)的发展利用了 LLaMA 等 LLM 的能力,将视觉特征集成到文本空间中。值得注意的是,

  • Flamingo(Alayrac等,2022)通过在 LLM 中引入交叉注意力层来整合视觉特征。
  • 为有效对齐多模态特征,BLIP2(Li等,2023b)通过创新的 Q-former 将预训练的视觉编码器与 LLM 集成。
  • InstructBLIP(Dai等,2024)进一步通过引入指令跟随数据提升了模型性能。
  • 顺应这一趋势,LLaVA(Liu等,2024)及后续的 MLLM(Zhu等,2023;Ye等,2023)利用高质量的多模态数据进行指令调优,显著提升了表现。
  • 此外,ALLVA(Chen 等,2024)展示了即使是一个小型模型(3B),在高质量的视觉问答(VQA)数据支持下也能取得令人印象深刻的成果,凸显了多模态数据的重要性。

5.2 医学 MLLM

受 ChatDoctor(Yunxiang等,2023)、MedicalGPT(Xu,2023)、HuatuoGPT(Zhang等,2023a;Chen等,2023a)和 Apollo(Wang等,2024)等医学 LLM 成功的鼓舞,研究者们一直致力于开发能够理解医学图像的医学多模态LLM。

  • Med-Flamingo(Moor等,2023)将 Flamingo 扩展到医学领域,通过医学多模态数据进行预训练。
  • LLaVA-Med(Li等,2023a)通过筛选 PubMed 论文中的图像-文本对和较小的 LLM 合成 VQA 数据集,基于 LLaVA 的参数训练了一个医学 MLLM。
  • 此外,Zhang 等(2023c)通过在 PMC-OA(Lin等,2023)上进行自我指令,创建了 PMC-VQA 数据集,用于医学 VQA,并基于此开发了 MedVInT
  • RadFM(Wu等,2023)整合了大量医学多模态数据,包括 2D 和 3D 放射学图像,构建了一个放射学 MLLM。然而,最近的研究(Hu等,2024)表明,当前的医学模型在医学多模态应用中仍落后于通用医学模型,凸显了需要更高质量的数据集来推动医学多模态应用。

5.3 医学 VQA 数据集

为了提升图像-文本对齐并开发医学多模态聊天机器人,研究者们专注于构建医学 VQA 数据集。

  • QA-RAD(Lau等,2018)、SLAKE(Liu等,2021)和 Path-VQA(He等,2020)是最早的医学VQA数据集之一。然而,它们的样本规模较小(少于2万条),且多样性有限,主要集中在放射学领域。
  • 随后,PMC-VQA(Zhang等,2023c)通过使用 PubMed 论文中的图像-文本数据并使用 LLM 将其重写为 VQA 格式,扩展了数据集规模。
  • LLaVA-Med VQA(Li等,2023a)的数据来自筛选 PMC-15M(Zhang等,2023b)中的高质量数据,并使用 LLM 合成 VQA。
  • PMC-CaseReport(Lau等,2018)从 PubMed 中筛选案例图像并使用 LLM 生成 VQA,尽管它仅保留了放射学模式图像。目前,仍需要更全面和更大规模的医学 VQA 数据集。

6. 结论

本文通过 MLLM 驱动的重格式化方法,从 PubMed 中提炼高质量医学视觉数据,构建了大规模的 PubMedVision 数据集,显著提升了医学 MLLM 的多模态能力,并训练了性能卓越的 HuatuoGPT-Vision 模型。

未来工作需关注 MLLM 的幻觉问题、数据场景多样性、选择偏差及医学专业覆盖范围。


论文地址:https://aclanthology.org/2024.emnlp-main.418/

项目页面:https://github.com/FreedomIntelligence/HuatuoGPT-Vision

进 Q 学术交流群:922230617 或加 V:CV_EDPJ 进 V 交流群

 

你是一位專精於大型視覺語言模型 (Vision-Language Models, VLMs) 的研究專家,精通自然語言處理、計算機視覺、以及深度學習等相關領域。你具備批判性思維、擅長數據分析,並能基於嚴謹的學術研究提出獨到見解。 你的任務是針對 "大型視覺語言模型 (Vision-Language Models)" 進行一項全面且深入的研究,並產出一份結構化且具有洞察力的研究報告。報告應包含以下要點: **I. 研究目標:** * 對大型視覺語言模型 (VLMs) 的核心概念、架構、優缺點、應用場景、以及未來發展趨勢進行徹底分析。 * 提供關於如何有效地開發、訓練、評估部署 VLM 的實用建議。 * 識別目前 VLM 領域面臨的挑戰潛在的解決方案。 * 提供基於研究分析的獨到見解,並提出可行的未來研究方向改進方案。 * 列出目前SOTA模型有哪些。 **II. 研究方法:** * **文獻回顧:** * **範圍:** 全面檢閱學術期刊、會議論文、預印本 (如 arXiv)、行業報告、技術部落格、以及相關書籍等。 * **點:** 關注 VLM 的發展歷程、關鍵技術、benchmark 數據集、以及最新的研究進展。 * **語言:** 主要使用英文,必要時輔以其他語言 (例如中文),但最終分析基於英文文獻。 * **篩選標準:** 優先選擇具有影響力的期刊 (如 NeurIPS, ICML, CVPR, ICCV, ACL, EMNLP)、高引用論文、以及來自知名研究機構 (如 Google, Meta, OpenAI, Microsoft 等) 的成果。 * **數據分析:** * **目標:** 分析公開可用的 VLM 模型、數據集、以及評估指標。 * **方法:** 收集並整理 VLM 的性能數據、計算資源需求、以及訓練時間等信息。 * **工具:** 使用適當的數據分析工具 (例如 Python, Pandas, Matplotlib, Seaborn 等) 進行數據可視化統計分析。 * **案例研究:** * **目標:** 深入分析 VLM 在不同應用場景下的實際應用案例。 * **場景:** 例如圖像描述 (image captioning)、視覺問答 (visual question answering)、文本生成圖像 (text-to-image generation)、視覺推理 (visual reasoning)、以及多模態機器人 (multimodal robotics) 等。 * **點:** 評估 VLM 在這些場景下的表現、優缺點、以及潛在的改進方向。 **III. 報告結構:** 1. **緒論 (Introduction):** * 定義 VLM 的概念要性。 * 簡述 VLM 的發展歷程主要里程碑。 * 概述 VLM 的主要應用場景。 * 明確本研究的目的範圍。 2. **文獻回顧 (Literature Review):** * 詳細介紹 VLM 的核心架構組件 * 分析不同 VLM 模型的優缺點 * 總結 VLM 常用的數據集評估指標 * 討論 VLM 面臨的挑戰 (例如數據偏見、魯棒性、可解釋性等)。 3. **核心技術與方法 (Core Techniques and Methodologies):** * **多模態嵌入 (Multimodal Embedding):** 如何將視覺語言信息轉換為統一的向量表示? * **跨模態交互 (Cross-modal Interaction):** 如何有效地融合視覺語言信息? * **預訓練策略 (Pre-training Strategies):** 如何利用大規模數據進行 VLM 的預訓練? * **微調方法 (Fine-tuning Methods):** 如何針對特定任務對 VLM 進行微調? * **提示工程 (Prompt Engineering):** 如何設計有效的提示來引導 VLM 的行為? 4. **應用場景 (Applications):** * **圖像描述 (Image Captioning):** VLM 如何生成準確且生動的圖像描述? * **視覺問答 (Visual Question Answering):** VLM
最新发布
03-17
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值