多模态大语言模型(MLLM)近期成为重要的研究焦点。通过利用强大的LLM,实现了从单模态文本到多模态任务的生成式AI的转变。这一热潮开始对医学领域产生重大影响。然而,通用视觉语言模型(VLM)在医学视觉问答(Med-VQA)方面缺乏复杂的理解。即使针对医学领域的特定模型,也往往产生含糊不清的答案,且视觉相关性较弱。
在本文中,作者提出了一种通过参数高效的调优来实现细粒度自适应视觉语言模型(VLM)架构的方法,用于中文医学视觉对话。具体来说,作者设计了一个融合模块,其中包含细粒度的视觉编码器,以实现对细微医学视觉语义的提升。然后作者指出,在大多数先前的研究中,常见于医学场景的数据冗余被忽视了。在单一文本与多个图像配对的情况下,作者利用加权评分与知识蒸馏,自适应地筛选出与文本描述相匹配的有效图像。
在执行方面,利用从医院获取的大型多模态超声数据集。作者基于专业医生的文本创建了遵循指令的数据,以确保有效的调优。通过增强模型和高质量数据,Large Chinese Language a and Vision Assistant for Ultrasound (LLaVA-Ultra)在三个Med-VQA数据集上,超越了以前最先进的模型在各种指标上的表现。
1 简介
面对医疗问题,部分原因在于获取并利用并行医学图像文本数据的困难,这与一般领域可供获取的丰富互联网数据形成对比。LLaVA-Med在某种程度上缓解了这一问题,通过创建多模态医学指令遵循数据进行微调。然而,它仍难以提供更详细的正确回答。有时,它的答案较为模糊,更注重文本中的医学概念,而非对图像的深入分析。从数据角度看,它利用了PubMed公共论文中提取的图像文本数据,这些数据可能比原始来源的粗粒度且跨模态匹配度较低。
值得注意的是,它忽略了临床中常见的数据冗余现象,如许多其他先前的研究所示。这需要对模型进行优化和适应,以适用于细粒度的医学领域。此外,在医学多模态领域,对大量中文数据的探索还很少。
在本文中,作者提出了一个大型中文语言a和Vision Assistant for Ultrasound(LLaVA-Ultra),这是一个端到端训练的医学多模态聊天机器人。据作者所知,这是首次在基于大规模数据集的中文医学领域尝试将多模态微调扩展到医学视觉语言(VL)任务。作者的论文作出了以下贡献:
为了满足微医学影像的需求,作者利用了一个额外细粒度的Segment Anything Model (SAM)编码器,与CLIP编码器共同提取视觉语义。随后,一个融合模块可以有效地集成这两种典型的特征,从而实现视觉增强,以实现更好的多模态对齐。此外,对于医学场景中常见的数据冗余,作者设计了一个具有加权评分和知识蒸馏的自适应采样模块,可以自动筛选有效信息。这提高了模型的鲁棒性,从而确保在复杂的实际医学场景中作出正确的响应。
高质量医疗平行数据。作者提出了一种新颖的数据获取 Pipeline ,首先从医院数据库中直接收集大规模的中国超声多模态数据集,涵盖了医生为多个身体部位进行超声检查所提供的专业内容。作者采样约170万张超声图像和188万份临床文本,并使用GPT-3.5生成用于医疗指导调优的多模态指令。
LLaVA-Ultra. 得益于强大的架构和专业细粒度数据,LLaVA-Ultra在中文医学领域展现了最佳实践。仅用60小时训练,使用4个48GB A40s,它为医学对话中的视觉内容提供了详细回答。在作者医院超声数据集和公共医学视觉问答(VQA)数据集上,LLaVA-Ultra超过了先前的最先进水平(SOTA)。
2. 医学领域的多模态对话模型
2.1 超声波概念特征对齐
作者采用了一种基于多模态对话模型LLaVA的网络架构,该架构包含一个投影模块,可以将视觉编码器与语言模型相连接。模型参数使用英语医学领域的LLaVA-Med权重进行初始化,然后进行微调,使用作者从中文超声数据集中生成的医学领域指令进行微调。
对于每一对配对样本,给定文本指令和图像输入,作者要求模型生成与原始描述相关的答案,例如给出诊断或描述视觉内容。指令调优过程可以表述如下:
其中 是需要优化的网络参数。遵循 LLaVA-Med 的方法,作者分两阶段进行训练:
-
第一阶段,使用简单的指令将超声图像与相应的医学概念对齐。
-
第二阶段,利用 GPT-3.5生成的多样化指令,使模型能够处理自由形式对话。
在训练过程中,冻结视觉编码器以及大部分 LLM 权重,并更新投影层(LoRA)和增强模块的参数。通过迭代优化,模型吸收了大量的新的超声视觉信息,并将其与医学文本概念对齐。因此,它可以作为一个超声视觉聊天机器人。
2.2 视觉增强
大多数现有的MLM使用CLIP系列作为视觉模块,将深度层中的全局上下文特征作为LLM的输入。然而,这可能导致MLM在视觉感知上不够精细。此外,MLM的改进受到视觉分支的局限性的影响,这主要是由于视觉和语言模型的不均衡尺度(例如,ViT-Large-300M与LAMA-7B/13B)。
因此,在MLM中需要进行视觉增强,尤其是在医学领域,其中图像信息很微妙。为了应对这个问题,作者将Segment Anything Model(SAM)集成到额外视觉编码器中,并进一步通过融合策略进行进一步处理,如图2所示。
具体而言,输入图像经过CLIP(基于ViT-Large)编码器和的处理以提取视觉特征,然后通过相应的投影模块和将其与LLM的语言特征空间对齐。作者使用一个可学习的权重参数将产生的特征和结合在一起进行特征融合,如下所示:
它实现了两种典型视觉特征之间的适当平衡。融合特征丰富了详细局部信息,例如病变区域的纹理。随后,它与指令 Token ConCat 起来,作为LLM的输入,从而增强MLLM的细粒度视觉感知。
讨论。
-
医学领域自适应. 这对于医学图像尤为重要,因为像病变区域这样的特征在自然图像中通常比细微得多。
-
参数高效的方案. 它以参数高效的方式验证了多个冻结视觉编码器的视觉增强的可行性。
-
模型扩展. 除了SAM之外,它可以推广到探索其他视觉模型的应用价值,用于MLMs。
2.3 数据冗余的自适应采样
在临床场景中,常常会遇到数据冗余问题,即一组图像对应相同的文本,但只有部分图像有效。为了在保证计算成本的同时有效应对这一场景,作者设计了一个自适应模块。对于这种成对的实例,作者根据从视觉语言投影中获得的特征,计算出组合的k张图像的权重分数。然后,作者选择权重分数最高的图像作为最符合文本特性的有效图像。具体来说,作者设计了两种自适应取样策略,如图2所示:
(a) 特征评分策略。 作者使用投影图像特征 作为权重评分,因为投影模块的优化与训练中的图像文本对齐有关。由于 包含多个 Token ,它们分别关注不同的内容,因此作者避免将它们同等对待,例如通过简单求和或平均。相反,作者使用一组可学习的参数 来计算加权平均分作为评分。并使用得分最高的图像作为本组的有效图像,即i.
因此,这些权重可以在训练过程中逐步优化,以便专注于更能表达图像与文本相关性的 Token 。
(b) 注意力评分策略。 上述策略在训练过程中间接学会了对齐。然而,在作者的大数据集中,每个文本实例都包含足够的信息,可以直接通过将文本与每个图像的特征进行比较来匹配最合适的图像。例如,如果指令的问题涉及诊断,作者可以利用描述性文本超声检查结果。作者利用每个图像特征的前N个LLM层在配对实例的每个图像特征和相同文本超声检查结果(即)上进行交叉注意力。
所获得的分数直接反映了每张图像与这段文本的相关性。考虑到在推理过程中没有额外的文本知识,作者将这些注意力分数视为伪标签,并计算经过归一化后的特征分数 的交叉熵损失,即:
通过利用这些知识优化权重参数w,作者可以更好地优先考虑 Token ,从而筛选出与文本强烈相关的图像。
讨论。
-
适配医疗场景。 作者的方法利用冗余医疗数据,这在实际场景中为医生进行诊断过程提供了高度相关和实用的支持。
-
计算效率。 而不是对同一文本的所有图像进行标注并选择最准确的结果,作者提供了一种计算成本低的方法。在将图像输入到LLM之前,作者直接选择特征分数或使用小规模的注意力模块筛选有效图像。即使使用了冗余适应模块和上述提到的额外视觉编码器,在4台48G A40s上训练也只需要60小时。
-
数据利用率。 在上述的第二种筛选方法中,作者利用超声观察的文本信息,这是一种以前未开发的资源。它往往比诊断结果更直观地反映图像的信息,从而更好地识别有效图像。此外,超声观察的文本和随后输入到LLM的诊断结果之间存在强烈的关联。前者是表面描述,后者提供了对前者的总结和深入特征描述。这种内在关系有助于在学习过程中提取更详细和深刻的医学语义。
-
领域适应。 尽管本文的重点是超声领域,但可以推广到其他医学影像模式,如CT、CXR和MRI。这些领域也有要求进行细粒度分析和数据冗余。可以利用这些领域的特征和知识构建类似作者提出的辅助工具。
3. 专业超声多模态数据
3.1 超声多模态数据
目前缺乏中文医学数据集以用于微调MLLMs。为填补这一空白,作者首次尝试利用一个大规模中文多模态超声医院数据集。该数据集具有以下显著特点,这在以前的数据集中很少出现:
-
首手来源和多样性。作者的数据集来源于医院数据库。它包括超过188k个医学文本描述与170万超声图像的配对,涉及20多个检查部位,如心脏、甲状腺、乳腺、子宫、前列腺等。
-
专业性。它包含全面且详细的临床文本,如检查部位、病史、超声观察、诊断等。专业医生提供所有内容,因此数据可靠性使得作者的工作成为医学MLLM的有价值的尝试。
-
超声模态的挑战。以前的工作使用的成像模态通常包括X光胸片(CXR)、计算机断层扫描(CT)和磁共振成像(MRI)。即使是一个普通人也可以在它们的图像中识别出身体部位(如 Head 和胸部)。然而,在超声图像上进行这项任务要困难得多。对于MLLMs像普通人一样学习医学语义是一个挑战。
-
细粒度。由于数据集来源于医院,因此包含许多具有很高相似度的样本,这要求对医学理解具有更高的细粒度。
-
尊重医学现实。像LLaVA-Med使用的PMC-15M数据集通常具有配对的实例,其中文本对应于单个图像。然而,这在临床实践中并不一致,因为存在数据冗余。作者的数据集通过捕捉一个文本与同一超声视频中的多个图像配对来解决这个问题。例如,当文本描述一个病变时,只有扫描到病变的帧才是有效的,而没有病变的帧则无效。这挑战模型区分有效图像进行推理,并具有实际意义。
3.2 超声Instruction-following数据
受到LLaVA-Med的启发,作者生成了中国超声指导遵循数据,如图3所示。对于一个配有k张图像X_v的描述性标题X_c,作者创建了一个具有问题X_q的指导遵循示例:
由于不同类型的字幕和样本问题,指令需要与考试地点、超声观察或医疗诊断相关的答案。为了验证数据的合理性,作者产生了两种指令数据版本:
-
考虑问题中的考试地点作为线索的超声数据集。
-
一个大小相似但问题中没有提到地点的数据集,同时期待模型在答案中进行说明。这些数据集在实验中用于评估它们对训练好的LLaVA-Ultra的影响。
4. 实验
4.1 实施细节
除了作者的大规模医院超声数据集,作者还评估模型在两个开源的Med-VQA数据集上:
-
SLAKE 是一个英汉双语数据集,包含642张图像和超过7000个问答对,覆盖12种疾病和39个器官,包括CT、MRI和X光成像方式。问答涉及各种主题,如诊断、解剖结构以及病变位置。目前,SLAKE在医疗领域为VQA任务提供了一个关键的基准,因为其多样性。它已在许多重要的多模态大语言模型工作中用于评估目的,如LLaVA-Med、Med PaLM M和PMC-VQA。
-
OpenI 是印第安纳大学医院的胸部X光片数据集。XrayGLM 已经处理了这些非结构化数据,并使用ChatGPT将英语报告翻译成中文。这可以在缺乏开源中文多模态医疗数据的情况下提供支持。作者的实验采用这个由6,436张图像和3,218份报告组成的集合。
评价指标。根据LLaVA-Med的评价指标,作者进行了进一步的改进。作者将模型生成的答案和真实答案分别进行分词,然后计算指标。对于开放性问题的答案,作者报告了精确匹配(EM)分数,F1 分数,精确度,召回率和双语评价 Understudy(BLEU)分数。
值得注意的是,BLEU 分数利用了4个词组的精确匹配来评估文本生成结果。作者调整了n-gram的权重,并得到了1-gram,2-gram,3-gram和统一的集合的分数,以全面评估准确性和流畅性。在 SLAKE 中,作者额外报告了 LLaVA-Ultra 在 CT,MRI 和 X-Ray 子集的结果,并使用闭集的准确度分数。
实验详情:LaVAE-Ultra 使用来自LaVAE-Med的权重初始化,后者包含在其后的模块中。它使用CLIP-ViT-L/14和额外的SAM-ViT-L作为视觉编码器,使用LaMA-13B作为LLM。作者使用线性投影进行多模态连接。
为了确保公平的比较,作者将比较模型的参数与相应的论文或代码保持一致,并在损失函数收敛时进行训练。数据预处理方式也相同。实验使用了4个48GB的NVIDIA A40s,并使用PyTorch进行。作者通过Adam优化模型,学习率设置为。
4.2 性能和比较
作者将在作为医疗视觉聊天机器人的LLaVA、LLaVA-Med和作者自己的LLaVA-Ultra之间提供比较。
为了展示图4中的定性比较,通用领域的LLaVA模型在医学任务上表现不佳,突显了域间差距。尽管针对医学领域进行了定制,但LLaVA-Med仍然未能充分解决中国超声场景。它通常仅关注问题中的文本医学概念,并给出含糊不清、不具参考价值的答案,无法满足提问者的需求。
它们倾向于依赖从早期LLM中学习的医学知识,而不是有效地整合医学视觉特征。这导致响应与输入图像的关联较弱,甚至不准确。这暗示了它们模型结构的缺陷。相比之下,LLaVA-Ultra模型能够提供更准确、更具体的答案,与输入医学图像的视觉内容高度一致。这种显著的性能表明了LLaVA-Ultra的能力。
在中文超声数据集上,同时使用LLaVA和LLaVA-Med。结果证明,LLaVA-Ultra架构具有优势,尤其是视觉增强和冗余适应模块。在SLAKE和OpenI的下游任务中评估,LLaVA-Ultra在开放集和闭合集问题上始终提供最佳性能,这表明其鲁棒性。这表明LLaVA-Ultra在训练过程中有效地将医学语义映射到正确的特征。即使在英语数据子集上,LLaVA-Ultra也提供了可接受的结果,如表2和图5所示,这可能得益于其在LLM初始化过程中获得的文本知识。
这表明在中文数据集上的训练并未显著损害这部分英语知识。作者在SLAKE的CT、MRI和X-Ray子集上报告了结果,除了总体平均值。超声模式预训练模型在各种成像模式之间表现出有效的适应性。这突显了LLaVA-Ultra在简单微调后完成下游多模态任务时的鲁棒性和灵活性。
4.3 消融研究
为了评估模型组件的有效性,作者在表3中展示的几个方面进行了比较实验。
视觉增强。 为了证明视觉增强的必要性,作者用原始的单CLIP编码器替换了作者的双视觉编码器及其融合模块,并观察到表3中所有指标的降低。这验证了加强MLLM的视觉分支和强调作者的特征融合策略的有效性。SAM特性的集成使LLaVA-Ultra能够提取更细粒度的视觉语义,这在处理医疗场景中的微小信息方面是至关重要的。
数据冗余适应。 作者去掉了数据冗余适应模块,表中的指标显示显著降低。这突显了解决数据冗余的重要性,这在实际医疗场景中很普遍,但往往不被注意到。在以前的工作中,当多个图像对应相同的文本时,通常将该文本分配给每个图像。这导致将不反映特定文本的图像映射到相似的特征表示,即冗余数据,并将有效图像映射到相似的特征表示。这阻碍了模型学习准确的医学语义和跨模态对齐。
如所示,通过适应策略,LLaVA-Ultra全模型可以有效解决这个问题。具体而言,注意力评分策略(Func.b)利用丰富的文本数据进行特征对齐,因此与简单的特征评分(Func.a)相比获得了更好的分数。
数据构建。 作者通过从问题中删除考试地点的线索来修改指导数据。作者提出类似于 “给出这个超声图像的诊断” 的通用问题。表3中的结果表明,评估指标略有下降,但仍在可接受范围内。这表明模型通过有限的线索学习特定医学知识的有效性,以及作者模型结构的鲁棒性。
4.4 限制
尽管LLaVA-Ultra在中文医学多模态理解方面展现出令人印象深刻的能力,但它仍存在一些局限性,包括:
-
预训练视觉模型的规模限制了其性能;
-
作者的大规模医疗数据集尚未包括更全面的标签,例如分割,以便LLaVA-Ultra在视觉感知方面进一步改进。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。