（多模态医疗）OphGLM: 基于指令和对话训练眼科大型语言和视觉助手-CSDN博客

本文链接：https://blog.csdn.net/m0_53568796/article/details/133939325

本文提出新型眼科大型语言和视觉助手OphGLM，结合视觉与语言模型。使用知识图谱和医学对话构建眼科指令和对话微调数据集，基于眼底图像构建疾病诊断模型。OphGLM由眼底诊断和OphGLM管道组成，实验效果良好，未来将继续改进模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://arxiv.org/pdf/2306.12174.pdf
原文链接：https://arxiv.org/pdf/2306.12174.pdf
原文链接：https://arxiv.org/pdf/2306.12174.pdf

1.Introduction

本文做出的三个贡献：
1、我们使用知识图谱和现实世界的医学对话，使用 ChatGPT 构建眼科疾病的指令和对话微调数据集。这提高了LLM在医疗保健领域的医学问答的真实性和可用性。
2、基于公共数据集的眼底图像，我们构建了用于常见疾病诊断的计算机视觉模型，该模型对糖尿病视网膜病变、年龄相关性黄斑变性、病理性近视和青光眼进行分类。此外，我们还开发了糖尿病视网膜病变分级模型、糖尿病视网膜病变病变分割模型、眼科罕见病眼底诊断模型，作为疾病诊断模型。
3、我们提出了一种新型眼科大型语言和视觉助手（OphGLM）。据我们所知，这是眼科领域首次尝试将视觉模型与大型语言模型相结合。实验结果表明我们的OphGLM在眼科临床应用中具有巨大的潜力。

2.Related Work

1、两个医学多模态大模型：Visual Med-Alpaca and LLaVA-Med（后者更好）
2、生物医学视觉问答方法
3、两种微调大语言模型(LLM)的方法：（1）医学对话数据集上单独微调法学硕士。（2）语言模型 (LM) 的前缀调整，其中新的可训练模块连接冻结图像编码器和因果 LM，从而允许对整个模型进行标准监督微调.
在本文模型中，使用ChatGLM-7B作为LLM，并在眼科对话数据集上进行微调。（小想法：自己做实验的时候用语言模型前缀调整的方法来进行试验）

3.Ophthalmology Dataset（眼科数据集）

为了最大限度地提高 LLM 在特定疾病中的问答表现，我们设计了两种策略来提高其表现。

1、指令数据构建

我们基于五种不同的场景构建指令微调数据集，如图1所示：

在这里插入图片描述

1、医学影像描述：基于医学影像对疾病分类、分级、病变的基本描述。
2、原因和症状：有关疾病症状的信息。
3、诊断和检查：如何诊断和检查某一特定疾病，包括常用的检查和检测方法。
4、治疗和预防：如何治疗和预防某种特定疾病，包括药物治疗、手术治疗、康复治疗等方面。
5、预后和生活方式：疾病的预后以及如何通过改变生活方式来减轻症状或预防疾病。

创建指令的基于知识的提示示例如附录图4所示：
在这里插入图片描述

2、医学对话构建

为了提高真实的交互体验，本文提出基于真实医患对话的对话提示策略。
首先从MedDialog 数据集中提取有关眼科的真实医患对话，然后设计一套提示让ChatGPT角色扮演医生角色，从对话中提取患者意图，并尽可能做详细医学解释。

我们构建微调眼底对话数据集的过程如图 2 所示。在步骤 1 中，使用现实世界的医患对话和知识图来创建提示。在步骤 2 中，使用 ChatGPT 界面创建基于医学知识的指令和对话。步骤3，进行数据清洗，创建实例。在步骤 4 中，通过验证现有数据集来删除重复数据。在步骤 5 中，使用手动审核和 GPT4 评估实例质量。最后，将新的指令和对话添加到眼底对话池中。这种微调数据集的构建不仅增强了LLM在医学知识方面的真实性和准确性，而且还创建了更加友好的医患对话机制。用于创建患者友好对话的基于对话的提示示例如附录图 5 所示。

附录图5

用以上两种策略构造了20k的眼底对话数据集

4.Methodology

4.1 概述

OphGLM由眼底诊断管道和OphGLM管道组成。眼底诊断管道主要进行图像的分类和分割，这些部分协同工作，从输入的眼底图像中提取信息。提取的视觉信息被集成到结构化文本模板中，根据输入的眼底图像形成诊断报告；OphGLM管道，它通过文本拼接过程将眼底图像诊断报告与用户输入的眼底对话合并。这形成一个提示，然后输入 OphGLM，最终生成高质量的响应。整体架构如图3所示。

5.Experiments

在模型训练过程中，我们利用公开数据集和私有数据集来训练和微调眼底诊断模型，具体详细信息如表1：

分类任务的评价指标是准确率（ACC），分割任务的评价指标是骰子系数（DSC）：
在这里插入图片描述
从文章的实验结果来看，效果很好。

6.Conclusions

我们开发了 OphGLM，一种基于指令和对话的大型眼科语言和视觉助手。我们的模型在超过 20k 的教学微调和对话数据集的数据集上进行了微调，这些数据集是根据现实世界的对话和医学知识精心制作的。这一过程为 OphGLM 提供了专为眼科定制的强大问答能力。
尽管眼科视觉对话取得了重大进展，但我们的模型仍有改进的空间。我们将继续进行研究，生成更多高质量的图像语言数据，以增强模型的整体能力。此外，我们计划丰富和加强上游诊断模型，提供多标签疾病分类和病灶注释能力。最后，我们计划将眼科的其他医学成像模式（例如 OCT）纳入模型中，以创建一个全面的医疗辅助系统。

原文链接：https://arxiv.org/pdf/2306.12174.pdf
原文链接：https://arxiv.org/pdf/2306.12174.pdf
原文链接：https://arxiv.org/pdf/2306.12174.pdf