(多模态医疗) CephGPT-4:采用视觉大语言模型的交互式多模态头影测量和诊断系统

最新推荐文章于 2024-05-15 09:19:31 发布

迈瑞的话2

最新推荐文章于 2024-05-15 09:19:31 发布

阅读量363

点赞数 1

文章标签：语言模型人工智能 AIGC

本文链接：https://blog.csdn.net/m0_53568796/article/details/133852218

版权

论文地址

Abstract

在本文中，我们提出了一种新颖的多模态头影测量分析和诊断对话模型。首先，构建多模态正畸医学数据集，包括头影测量图像和医患对话数据，使用U-net自动分析头影测量标志并生成诊断报告。然后，头影测量数据集和生成的诊断报告分别在 Minigpt-4 和 VisualGLM 上进行微调。

1.Introduction

首先介绍了一下迫切需要大规模的正畸头影测量诊断模型的背景因素。然后根据ChatGPT、MiniGPT-4和VisualGLM引出本文的模型框架，如图1（Fig.1）。
Fig.1

2.Related Works(可选择跳过不看)

2.1 Large Language Models

最近，研究人员发现了一个名为 LLaMa 的模型，该模型于 2021 年提出。它不仅提供了参数大小从 70 亿到 650 亿不等的多种模型，以及其架构和训练策略的详细描述，还提供了各种模型的性能评估。任务[5]。 Alpaca 是一个基于 LLaMa 的模型，通过引导微调在编程任务中展示了优异的性能和应用潜力 [6]。为了增强中文语言模型的功能，Du 等人。使用 GLM 架构开发了一个具有 1300 亿个参数的中文模型，并对其进行了训练和微调 [7]。 ChatGLM 通过监督微调来调整人类意图，展示了其在中国背景下的潜力 [8]。

2.2 Pre-trained Models in Biomedical Domain

在生物医学自然语言处理（NLP）领域，已经推出了基于ChatGPT衍生的几个大型语言模型，包括ChatDoctor、Med-Alpaca、PMC-LLaMA、DoctorGLM和Huatuo。这些模型均基于OphGLM模型，该模型利用眼底图像进行疾病评估和诊断，并结合了眼科知识数据和真实的医学对话。此外，OphGLM 模型集成了视觉功能，并为眼科多模式指令跟踪和对话微调建立了新的数据集。实验结果证明了OphGLM模型的出色性能，表明其在眼科临床应用中具有革命性变化的潜力[10]。 LLaVA-Med 是一种视觉语言对话助手，可以回答与生物医学图像相关的开放式生物医学研究问题。通过从大规模且广泛覆盖的生物医学图像字幕数据集中生成开放式指令跟踪数据，并应用新颖的课程学习方法来微调大规模通用领域视觉语言模型，LLaVA-Med 展示了出色的多模态对话功能，并可以根据开放式指令回答有关生物医学图像的查询。 LLaVA-Med 的微调结果在三个标准生物医学视觉问答数据集上优于之前有监督的最先进方法 [11]。 HuatuoGPT 在监督微调过程中，利用了来自 ChatGPT 的压缩数据和来自医生的真实数据。通过训练奖励模型，使语言模型与两个数据源的优势相一致，HuatuoGPT 采用人工智能反馈强化学习 (RLAIF) 来提高其性能。为了对模型进行评估和基准测试，提出了一种包含自动和手动评估指标的综合评估方案。实验结果表明，HuatuoGPT 在医疗咨询领域的开源 LLM 模型中取得了最先进的性能，特别是在 GPT-4 评估、人类评估和医疗基准数据集方面。值得注意的是，在大多数情况下，通过使用额外的真实世界数据和 RLAIF，压缩语言模型（即 HuatuoGPT）的性能优于其教师模型 ChatGPT [11]。 XrayGPT 是一种新颖的基于对话的医学视觉语言模型，旨在分析和回答有关胸部 X 射线的开放式问题。该模型使用简单的线性变换将医学视觉编码器 (MedClip) 与微调的大规模语言模型 (Vicuna) 对齐。这种对齐使模型拥有出色的视觉对话能力以及对 X 射线和医学领域知识的深刻理解。为了提高语言模型在医学环境中的性能，作者从自由文本放射学报告中生成了 217,000 个交互式高质量摘要，以通过微调过程增强语言模型的性能。这种方法为推进胸部 X 射线自动分析开辟了新途径 [12]。
PMC-LLaMA是一个开源语言模型，在总计480万篇生物医学学术论文上进行了微调，注入医学知识，增强其在医学领域的能力。该模型已在 PubMedQA、MedMCQA 和 USMLE 等三个生物医学问答数据集上进行了初步评估。结果表明，在理解生物医学领域特定领域概念方面的性能得到了提高，并且在微调后在问答基准上实现了高性能[13]。
PMC-VQA 是一种用于医学视觉问答（MedVQA）的视觉指令微调模型。对医学图像中关键临床信息的有效解释至关重要，这就是为什么重点关注 MedVQA 的原因。首先，MedVQA 问题被重组为生成任务，自然遵循人机交互过程。通过将预先训练的视觉编码器的视觉信息与大规模语言模型对齐，提出了基于生成的模型，从而实现了医学视觉理解。其次，建立了一个广泛的过程来构建名为 PMC-VQA 的大规模 MedVQA 数据集，其中包含 227,000 个 VQA 对和 149,000 张图像，涵盖各种模式和疾病。所提出的模型在 PMC-VQA 上进行了预训练，并在 VQA-RAD 和 SLAKE 等多个公共基准数据集上进行了微调，显着优于现有模型。此外，引入了具有更高挑战性的手动验证测试集来评估模型的性能，即使是最好的模型也很难解决[14]。

3.Methods

3.1 Dataset Construction(数据集构建)

我们构建了一个多模态正畸医学数据集，其中包括医患对话数据、正畸医学图像和正畸分析报告。
1、首先，我们创建了医学领域问答数据集（MD-QA）。该数据集包含 59,642 条中英文医患对话记录（其中英文 29,624 条，中文 29,618 条）。对话涵盖正畸图像的解读、诊断和治疗建议等主题。
2、我们收集了真实的临床病例样本，建立了正畸颅面影像和测量多模态数据集（OCIMM数据集），该数据集涵盖了正畸颅面影像和测量的各种类型和条件。 OCIMM 数据集包括正畸医学图像和相应的文本诊断报告。其中正畸医学图像是从该领域的相关数据库和图像资源中获取的，并由专业医生进行注释[15]。正畸分析报告是使用改进的U-Net算法和Steiner分析方法生成的。
3.数据清洗掉质量低的数据。

3.2 Model Fine-tuning(模型微调)

3.2.1、Fine-tuning on MiniGPT-4

MiniGPT-4由视觉编码器BLIP-2和大型语言模型Vicuna组成。首先，我们利用 MD-QA 的大量医学对话数据对 Vicuna-7B 模型进行了微调，使其能够处理中文医学对话并回答常见的医学问题。然后，我们将 Vicuna-7B 与视觉编码器对齐，并使用 OCIMM 数据集对 MiniGPT-4 进行微调。
我们采用预定义的提示和指令集来标准化训练样本的格式。这有助于确保模型能够根据所提供的说明正确推断和回答问题。

###Doctor:<Img><ImageFeature></Img><Instruction>###Assistant:

<指令>部分分为两部分。第一部分从预定义的指令集中随机选择指令，以确保模型能够正确响应不同形式的指令。指令集包括“根据这张头影测量X射线图像，您能提供什么诊断？”、“请从正牙医生的角度分析这张头影测量X射线图像”、“根据这张头影侧位测量图像”等多种格式的指令。 X 射线，您可以提供哪些诊断建议？”等。第二部分旨在通过添加数据集创建过程中使用的多种测量来增强模型对头影测量 X 射线图像的理解。提示格式如下
在这里插入图片描述

3.2.2、Fine-tuning on Visual GLM

VisualGLM-6B是以ChatGLM-6B为基础模型，并使用VIT和Qformer在视觉模型和语言模型之间建立了桥梁。
我们使用 OCIMM 数据集对 VisualGLM 进行了微调。为了保留其原始的多轮对话和图像理解能力，我们采用了一种称为低秩适应的高效微调方法。在微调过程中，我们面临数据集规模相对较小的挑战。为了确保模型能够学习新知识，同时保留其多轮对话和图像理解能力，我们减少了可训练参数的数量，仅在第0层进行低秩自适应，从而保留了模型的多轮对话和图像理解能力能力。同样，我们预先定义了指令集，并在微调时随机采样提示，以确保模型能够正确响应不同形式的指令。

4.Results

微调VisualGLM显着提高了其在视觉问答特定领域的性能。与基线模型相比，微调后的模型在回答问题方面取得了更好的准确性和相关性，表现出更高的性能。通过分析生成的结果，我们观察到两种模型都能够准确描述上颌和下颌之间的关系并评估下巴形态。 MiniGPT-4微调模型提供了关于矢状面角度的更详细和准确的诊断结果，并且可以准确识别咬合不正类型，提供更详细的口腔建议。另一方面，经过微调的VisualGLM-6B模型提供了对上下中切牙之间关系的更详细的识别，并保留了其多轮对话能力，以便进一步沟通和询问。

总结：
首先，研究构建了多模态正畸医学数据集，包括大量头影测量医学图像数据和医患对话数据。使用深度学习算法和斯坦纳分析方法扩展头影测量医学图像数据集以生成诊断报告。然后，使用医患对话数据对 vicuna-7b 模型进行微调。最后，使用头影测量医学图像数据集和生成的诊断报告对 MiniGPT 和 VisualGLM 模型进行微调。该方法对于定制化视觉问答系统的开发具有重要意义，为大语言模型在医学领域的实际应用提供了有力的支持。
论文地址
 论文地址
 论文地址
 论文地址

迈瑞的话2

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
(多模态医疗) CephGPT-4:采用视觉大语言模型的交互式多模态头影测量和诊断系统

在本文中，我们提出了一种新颖的多模态头影测量分析和诊断对话模型。首先，构建多模态正畸医学数据集，包括头影测量图像和医患对话数据，使用U-net自动分析头影测量标志并生成诊断报告。然后，头影测量数据集和生成的诊断报告分别在 Minigpt-4 和 VisualGLM 上进行微调。
复制链接

扫一扫