BIMEDIX2：基于多模态双语大模型生物医学专家 - 阿联酋MBZUAI&瑞典林雪平大学等-CSDN博客

本文链接：https://blog.csdn.net/m0_70486148/article/details/145156221

摘要

本文介绍了BiMediX2，一种采用统一架构的双语（阿拉伯语-英语）生物医学专家大型多模态模型（LMM），该架构整合了文本和视觉模态，以实现先进的图像理解和医学应用。BiMediX2利用Llama3.1架构，并整合了文本和视觉功能，以促进英语和阿阿拉伯语之间的无缝互动，支持基于文本的输入和涉及医学图像的多轮对话。该模型在包含160万份多样化医疗互动样本的广泛双语医疗保健数据集上进行训练，这些样本涵盖文本和图像模态，混合使用阿拉伯语和英语。

我们还提出了首个基于双语GPT-4o的医疗LMM基准测试，名为BiMed-MBench。BiMediX2在基于文本和图像的任务上进行了基准测试，并在多个医学基准测试中取得了最先进水平的性能。它在医学LLM评估基准测试中优于最近的最先进模型。

我们的模型在多模态医学评估中树立了新的基准，英语评估提升了超过9%，阿拉伯语评估提升了超过20%。此外，在UPHILL事实准确性评估中，它比GPT-4高出约9%，并且在各种医学视觉问答、报告生成和报告总结任务中表现卓越。

Github: https://github.com/mbzuai-oryx/BiMediX2

Models:https://huggingface.co/collections/MBZUAI/bimedix2-675ee7528464dfd03f746127

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何构建一个能够理解和处理多模态医疗数据的双语（阿拉伯语和英语）生物医学专家大型语言模型（LMM），以解决现有医疗大型语言模型（LLMs）主要集中于英语，无法有效服务非英语母语人群的问题。
研究难点：该问题的研究难点包括：如何在多模态医疗数据上进行有效的训练和推理，如何确保模型在双语环境下的准确性和实用性，以及如何克服现有模型在多模态理解上的局限性。
相关工作：该问题的研究相关工作包括Zhang等人（2024）、Li等人（2023）和Chen等人（2024）等人的传统医疗大型语言模型，这些模型在集成多模态能力时通常会在高级医学文本理解上做出妥协。此外，LLaVA-pp（Rasheed等人，2024）和LLaVA-Med（Li等人，2023）等模型虽然支持多轮对话，但在特定模态或语言支持方面存在局限。

研究方法

这篇论文提出了BiMediX2，用于解决多模态医疗数据处理和双语支持的问题。具体来说，

模型架构：BiMediX2基于Llama3.1架构，采用Vision Encoder和Projector来处理医疗图像，并使用标准的tokenizer对文本输入进行分词。文本输入被转换为Llama 3.1的语言嵌入空间，生成的响应可以是英语或阿拉伯语。
数据生成框架：使用GPT-4o将英语数据语料库翻译成阿拉伯语，并通过双语医学专家进行验证，以确保翻译的准确性和上下文适当性。
两阶段训练过程：

第一阶段：单独微调Projector，以将视觉嵌入对齐到语言嵌入空间。训练数据来自LLaVA-Med预训练数据集的467k图像-字幕对。
第二阶段：在语言模型内微调LoRA适配器，以增强其处理和生成多模态医学指令的能力。训练数据来自BiMed-V 1.6M双语多模态指令集。

实验设计

数据集：BiMed-V数据集是一个综合性的双语和多模态指令集，包含1.6M样本，涵盖多种公开可用的数据集（如PMC-OA、Rad-VQA、Path-VQA和SLAKE），并由自定义数据补充。还包括163k VQA样本，通过重新格式化LLaVA-Med 60K-IM数据集生成。
评估工具：使用EleutherAI评估框架评估纯文本医学任务，BiMed-MBench评估双语医疗多模态上下文中的模型正确性、有用性、相关性和准确性，使用Path-VQA、SLAKE和Rad-VQA数据集评估视觉问答任务，使用MIMIC-CXR和MIMIC-III数据集评估报告生成和总结任务。

结果与分析

临床LLM基准测试：BiMediX2 70B在多个医学MLMU、MedMCQA、MedQA、USMLE和PubMedQA数据集上表现出色，平均得分分别为84.6%、83.5%、83.8%、74.3%和70.4%。
UPHILL OpenQA评估：BiMediX2 70B在UPHILL OpenQA基准测试中整体事实准确率为60.6%，显著高于其他模型，如GPT-4的51.5%。
BiMed-MBench评估：BiMediX2 8B在英语和阿拉伯语评估中分别取得了62.2%和50.5%的整体得分，优于其他模型。
视觉问答（VQA）：BiMediX2 8B在多个VQA数据集上的平均得分为0.611，表明其在处理医学图像和文本输入方面的强大能力。
报告总结：BiMediX2 8B在MIMIC-III数据集上的ROUGE-L得分为0.416，BLEU-1得分为0.178，表明其在生成简洁准确的医学报告摘要方面的有效性。
报告生成：BiMediX2 8B在MIMIC-CXR数据集上的F1-RadGraph得分为0.098，BLEU-1得分为0.042，表明其在生成详细准确的医学报告方面的能力。

总体结论

BiMediX2代表了双语、多模态医疗AI的重大进步，解决了全球范围内对无障碍和可信医疗解决方案的需求。通过在统一架构中集成文本和视觉模态，BiMediX2实现了多轮交互，涵盖了医学图像分析和复杂医学对话等多种医疗任务。关键贡献包括综合性的双语数据集BiMed-V和首个基于双语GPT-4o的医疗LMM基准BiMed-MBench。BiMediX2为实现包容、多语言和多模态的医疗应用铺平了道路，显著提高了全球医疗援助的可访问性和质量。

论文评价

优点与创新

多语言支持：BiMediX2是第一个在视觉语言模型（VLM）评估基准上取得最先进结果的双语医学大型多模态模型（LMM），同时在医学大型语言模型（LLM）评估基准上也表现出色。
综合数据集：引入了名为BiMed-V的综合阿拉伯语-英语多模态双语指令集，包含超过160万个指令。
双语GPT-4o医学LMM基准：推出了第一个基于双语GPT-4o的医学LMM基准BiMed-MBench，包含286个医学查询，涵盖各种医学影像模态。
性能提升：BiMediX2 LLM在USMLE基准上比GPT-4高出8%以上，在UPHILL事实准确性评估中高出9%以上。
多模态医学评估新基准：在BiMed-MBench上取得了新的基准，英语评估提高了9%以上，阿拉伯语评估提高了20%以上。此外，在医学视觉问答、报告生成和报告总结任务中表现优异。
模块化训练方法：采用了模块化和高效的训练方法，使用LoRA适配器和微调投影器来优化语言模型和图像-文本对齐。
数据生成框架：通过一个强大的数据生成框架，使用GPT-4o将英文数据语料库翻译成阿拉伯语，并由双语医学专家进行验证，确保数据的临床相关性和语言准确性。

不足与反思

潜在问题：与其他生成式语言模型一样，BiMediX2可能会遇到幻觉、毒性和刻板印象等问题。这些问题源于基础模型的固有限制和预训练数据的性质。尽管已经进行了自动和定性评估，但模型的医学诊断和建议可能并不总是准确的。
安全性：目前模型缺乏明确的机制来遏制不良行为。未来的研究将集中在增强安全和对齐策略上。
伦理考虑：强调了伦理考虑和透明性的重要性。该模型的发布仅限于研究目的，尚未准备好用于临床或商业用途。确保模型的准确性和可靠性至关重要，因为错误的医疗建议可能会导致严重的健康后果。