揭秘Google Med-Gemini：如何打造下一代医疗大模型？

爱喝白开水a

于 2024-05-22 15:00:00 发布

阅读量1k

点赞数 18

文章标签：人工智能 chatgpt 语言模型 ai 大模型

本文链接：https://blog.csdn.net/python123456_/article/details/139113438

版权

1. 前言

开发垂直领域模型的方法有好几种，其中医疗、法律等专业是比较能体现模型垂直行业能力的，因此也深受各大厂商的重视。

五一小长假的第一天，Google在Arxiv上发布了《Capabilities of Gemini Models in Medicine 》 ( https://arxiv.org/abs/2404.18416 ) 的论文。说明了微调Gemini模型在医学领域获得多项任务SoTA的成果和方法。论文全文长达58页，作者有30多号人，引用的文献列了10页。让人觉得是个大手笔之作，难免想一探究竟。一些新闻稿更是冠以《医疗AI的一大步》《Med-Gemini ：医学大模型里程碑之作，Google今天发布，医学航母正式起航》等等标题。

在这里插入图片描述

受此吸引，花了一天时间认真读了论文。读完之后有些失落，总体感觉上是花了很多力气，具体的成果是为了体现Gemini模型自身能力而做的Demo。这时候才理解了论文题目的真正意思。Capabilities of Gemini Models in Medicine ，注意Capabilities和Models是复数形式，主要研究的是Gemini这一系列模型在医学上的各种能力，并非是训练出了一个在医疗领域专门的模型。另外，可能是Google在开源方面吃亏吃得比较多，这个项目本身没有开源。不过不重要了，思路是比较关键的。

下面是对这篇论文的解读。水平所限，只能尽力而为。

2. 论文工作概述

论文的大体意思是这样的，如果AI想要医学应用中能够表现好，有几个方面的关键能力：

高级推理能力，这不用解释，好的医生都是推理专家
获取最新的医学知识能力(其实就是RAG)，医学知识不断更新，需要用新的研究成果应用在诊断上
理解复杂的多模态数据，因为医学诊断需要很多辅助的多模态数据，比如X光片，心电图等等
长上下文能力，因为医学诊断要看很多病史数据，因此长文本很关键

恰好, Goolge的Gemini某些模型的长文本(Long Context)和多模态能力很不错，所以这个团队就利用这些基础能力，加上一些微调和Agent技术，开发了一系列针对医学领域应用的模型，统称为Med-Gemini。它的能力特点就是上面提到了几条，推理、多模态和长文本/网络检索能力。

这些能力是怎么得到检验的呢，目前有各种针对医学模型的评测(比如参加医生资格考试)，Med-Gemini在14个医学基准测试中，有10个基准测试中达到了SoTA，并在每个可以直接比较的基准测试中超过了GPT-4模型家族，而且强调差的不是一点半点，通常领先好几个身位。

除了评测，Med-Gemini的还在医学文本总结和转诊信生成等任务中超越人类专家。(感觉这好像没啥值得一提的啊，换任何一个模型来都可以做到)。

重点需要说明的是, Med-Gemini不是一个模型，是一系列的模型。也就是说，不是在一个模型里实现了既有高级推理能力，又有多模态能力，而是在不同的模型里做到的。是不是一个模型也没那么关键，需要的是一个垂直系统，不是一个垂直模型。

那么是提升基础Gemini模型的能力，让它在医学领域的推理、多模态和长文本能力得到增强呢？不同的方面用了不同的方法：

推理能力：通过自训练和网络搜索集成进行高级推理。这句话有点拗口，也是这篇文章为数不多的亮点，后面再详细解释。
多模态：微调，用各种医疗X光片等数据进行微调。稍微创新点的地方是加了一个编码器，来适应例如心电图啥的其他模态的数据，这段基本上可以忽略；
长上下文：这个更让人觉得是灌水，提出了一个新的inference-time chain-of-reasoning的提示方式，让模型以更好地理解长的电子健康记录（EHRs)。

拆解之后，这篇论文能看的也就只有推理增强部分。

3. 基础和微调模型的对应关系

因为所有的工作都是基于Google的Gemini基础模型之上的，因此先看看Gemini的模型列表。Gemini模型有1.0和1.5两个版本，每一个版本的模型里根据参数量的不同又分为Ultra，Pro和Nano三个档次，但是目前1.5还只有Pro版本。另外Nano是面向移动设备的。

	Ultra	Pro	Nano
1.5	n/a	Preview状态支持语音、图片和文字输入支持文本输出1M token输入上下文	n/a
1.0	文本模型	文本输入，文本输出30K输入上下文	文本模型
1.0 Vision	多模态模型8k上下文	支持图片和文字输入支持文本输出12K输入上下文	n/a

下面是论文中的原图，说明了Med-Gemini是在Gemini模型的基础上，分别通过不同的技术手段增强了高级推理能力，多模态和长上下文处理能力而得到的。

但是图上没有说明的是，其实是分别对好几个不同的模型进行了微调，根据文中描述，Med-Gemini和Gemini的对应关系如下:

	任务	基础模型	医学模型	技术手段
1	无需复杂推理的语言任务	Gemini 1.0 Pro	Med-Gemini-M 1.0	微调
2	需要高级推理的任务	Gemini 1.0 Ultra	Med-Gemini-L 1.0	自训练及不确定性引导搜索
3	多模态	Gemini 1.5 Pro	Med-Gemini-M 1.5	微调
4	长上下文	Gemini 1.5 Pro	Med-Gemini-M 1.5	提示工程（推理时推理链技术)
5	多模态专用编码器	Gemini 1.0 Nano	Med-Gemini-S 1.0	增加心电图专用编码器

前面提过，其实多模态和长上下文部分没什么特别的东西，有点价值的地方就是第2条，如何把Gemini 1.0 Ultra 训练到Med-Gemini-L 1.0。

3. 如何增加模型专业领域的推理能力

把Gemini 1.0 Ultra训练成为Med-Gemini-L 1.0的方法被作者称为Advanced reasoning via self-training and web search integration （通过自训练及Web搜索的高级推理）。

3.1 自训练方法介绍

这里解释一下自训练，自训练是一个种模型的训练方法，主要用于在标注数据比较少的情况。

假设我们想要训练一个模型来识别猫和狗的图片，但是我们只有少量的标注数据（例如，1000张标注过的猫和狗的图片）。我们希望模型能够泛化到更多的数据上，但是我们没有足够的资源来手动标注更多的图片。

自训练的过程有点武侠小说里左右脚互相踩，然后飞到高处的意思。过程如下：

初始训练：首先，我们使用已有的标注数据来训练我们的模型。这个模型可能是一个简单的卷积神经网络（CNN）。
未标注数据的预测：接下来，我们使用这个初步训练的模型来处理大量的未标注数据（例如，10000张未标注的猫和狗的图片）。
生成伪标签：模型会对这些未标注的图片进行预测，给出每张图片是猫还是狗的概率。我们可以选择置信度最高的预测作为伪标签。例如，如果模型预测某张图片是猫的概率为0.95，我们就可以认为这张图片是猫。
合并数据集：现在，我们将这些带有伪标签的未标注图片添加到我们的训练数据集中，与原始的标注数据一起形成一个新的、更大的数据集。
再次训练：最后，我们使用这个新的数据集来重新训练我们的模型。这次训练中，模型会同时学习来自标注数据和伪标签数据的知识。
迭代：我们可以重复这个过程，每次都使用最新训练的模型来为更多的未标注数据生成伪标签，并使用这些数据来进一步训练模型。

在论文中就采用这种方法来解决医学领域数据较少的问题。

3.2 制定训练目标

训练目标是增强基础模型在医学领域的推理能力，同时还需要能够在必要时通过网络搜索信息来支持自己的判断(实验中应该是指定了搜索的专业网站)。

因为临床诊断需要大量的复杂的推理过程，医生可能会对许多不同的输入进行推理，例如患者症状、医疗和活动史、实验室诊断、先前对治疗的反应以及其他更广泛的因素，例如流行病学数据。同时由于医学知识不断更新*，*理想情况下，医学大模型不仅需要具有强大的推理能力，而且还能够整合最新信息，例如来自权威网络的信息。

其实现在模型利用搜索工具已经没什么特别的了，大量的模型都能够集成搜索工具，关键是让模型准确的模仿医生的决策过程，知道什么时候该去搜索，搜索之后如何使用搜到的信息来支持决策。这需要进行微调。

3.3 收集和生成训练数据

如果需要微调训练就需要准备数据，最好是医生针对病例诊断的思考过程，但是收集这些数据非常困难。医生平时写个病历都是用画符的方式，更别提让他/她来告诉你诊断是怎么下的了。而且训练大模型需要大量的数据，因此训练数据的收集是比较困难的过程。

作者利用MedQA数据集进行了扩展，这个数据集里是一些医生资格考试的选择题。先让一些专家针对数据集里的问题写下自己推理的过程和依据，然后利用这些数据作为示例(应该就是few shot prompt)，让模型模仿着去做题，并且要求它把推理过程写下来，如果选择题做错了，那么就把数据过滤掉，如果做对了就保留推理过程。这样就得到了大量可以用于训练的数据。

在生成数据的过程中，会提示模型生成两种数据，一种是不利用搜索，一种是利用搜索，两种方法得到了两种数据集MedQA-R 和 MedQA-RS。你可能会疑惑为什么要生成两种数据类型，没关系，到后面就明白了。

在这里插入图片描述

3.4 迭代训练

在生成的数据上微调Med-Gemini-L 1.0之后，模型遵循few shot prompt中的推理风格和搜索整合的能力得到提升。然后，使用改进的模型重新生成新的合成数据，并迭代重复这个自训练过程，直到模型的性能达到饱和。

3.5 推理

在推理过程中，作者用了一种叫Uncertainty-guided search at inference (不确定性引导搜索的推理)的方法来让模型决定什么时候应该去搜索网络内容来支持推理。

在这里插入图片描述

推理过程分成四个步骤：

一个问题给出多个推理结果：给定一个带有医学问题的输入上下文提示，先让模型生成多个推理，模型可能每次推理的结果并不一致，但是这个不要紧。对于第一次推理结果，输入提示仅包含指令和问题。对于后续迭代，提示还包括来自下面第（4）步的搜索结果。
决定是否利用搜索：给定第（1）步的多个推理结果，会根据结果来计算一个值，这个值表示了模型推理结果多大的确定性。这里会设定一个阈值，如果模型的输出非常确定，那么就直接给出结果，如果不确定，那么就说明需要启动搜索。
不确定性指导的搜索查询生成：如果模型对推理结果不是很确定，那么就提示Med-Gemini-L 1.0生成三个搜索查询关键词，这些查询结果有助于解决不确定性。
搜索检索：生成的查询关键词提交给网络搜索引擎，检索到的结果被整合到Med-Gemini-L 1.0的输入提示中，用于下一次迭代，从第（1）步重新开始。通过用搜索结果增强提示，使模型能够通过考虑从网络搜索中获得的外部相关见解来完善其响应。

到这里可能你就明白为什么要生成两种推理数据里，第一次推理的时候是不用外部搜索引擎的数据的，只有生成的答案不确定性比较高的时候，才会补充进搜索引擎的额外信息，这时候就需要综合搜索引擎的信息进行推理了。

3.6 评估

这种方法是不是有效需要通过测试来决定，至少在论文里，去刷MedQA和其他题目还是挺有效的，达到了SoTA。

4. 有什么参考意义

其他多模态和长上下文的部分就不解释了。说一说对这篇论文的看法。

论文主要是Google为了展现Gemini模型的一些能力，从实际医学应用上面来看意义不是那么大，至少个人是这么感觉的。但是对于想要自己做垂直大模型的企业来说，还是可以有一些可以参考的地方。

首先需要定义好训练任务，需要增强模型的哪方面能力，至少论文里非常清晰的定义了他们认为医学领域需要的高级推理、多模态和长文本三个方面能力；
垂直行业系统，而不是垂直行业大模型。论文里并没有在一个模型上去实现所有的能力，而是分别选择了不同的模型进行微调，最后可以通过Agent整合的方式来实现一个系统，所以不要指望一个模型解决所有问题；
数据和评测标准很难得，很多论文做的其实是整理数据和评测标准，否则微调就没有方向，而这两个问题可能比想象中要困难很多；
成本，强如google这种公司，投入了几十号人，也就整出这么个玩意儿…

总体来看，这篇文章学术意义有限，绝对不是很多营销号上吹得什么了不得的突破，但是有一定的实际参考意义。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述