大模型赋能医疗健康

系列文章目录

一、前言
二、医疗大模型概述
三、医疗大模型的技术体系及演进


前言

随着全球新一轮科技革命和产业变革深入发展,以人工智能(Artificiallntelligence,AI)为代表的数字技术加速演进,成为经济增长的核心驱动力。近年来,人工智能大规模预训练模型(以下简称“大模型")在知识、数据、算法和算力等关键要素的共同推动下,呈现爆发式增长,从自然语言处理逐步扩展、迁移到计算机视觉、多模态、科学计算等领域,增强了人工智能的泛化性、通用性,开启了人工智能发展新范式。人工智能大模型有望成为未来新型基础设施,赋能千行百业新一轮增长,落地应用和价值实现成为大模型下一步发展方向。生命科学和医疗健康是大模型等AI技术最重要的应用领域之一,大模型可赋能生命科学研究和新药研发,促进医疗器械创新,提升医疗智能化水平。将大模型应用于医疗健康领域,推动医疗健康行业数字化转型升级,对满足人民群众健康需求和实现经济社会绿色、智能、可持续发展具有重要意义。

医疗大模型概述

(1) 医疗大模型的概念和优势

人工智能大模型(AI大模型)是 “大数据+大算力+强算法"结合的深度神经网络模型,通过 “预训练+微调"模式增强了人工智能的通用性、泛化性,带来人工智能研发新范式,成为迈向通用人工智能(Artificial General lntelligence,AGI )的重要技术路径。AI 大模型基于海量无标注数据进行预训练,提升模型前期学习的广度、深度和知识水平,众而能够低成本、高适应性地赋能大模型在后续下游任务中的应用。当模型参数规模足够大时,AI大模型出现 “智能涌现(Emerging)",例如 少样本"或 “零样本"等能力。因此,基于AI大模型进行下湃应用开发时,对预训练好的大模型进行领域知识微调训练(在下游特定任务上的小规模有标注数据进行二次训练)或使里從示词工程,即可高水平地完成多个应用场景的任务,实现通用的智能能力。AI 大模型是实现多种人工智能应用的通用载体,或成为未来整个人工智能生态的核心。

医疗健康大模型是面向复杂0开放医疗健康场景的基础大模型,具有大数据、大算力、大参数等关键要素,呈现涌现能力和良好的泛化性、通用性,可以根据不同的医疗健康任务,利用语言、视觉、语音乃至多模态融合的生物医学数据进行 “预训练·微调",从而为医疗健康领域提供高效、准确、个性化的服务和支持。大模型技术的突破,为医疗人工智能的发展注入新动力。相比传统的执行特定任务的医疗AI模型,大模型具有如下优势和潜力。

一、大模型可应用于多个下游任务
现有医疗人工智能模型主要采用针对特定任务的模型开发方法,在标记数据上进行训练,用于单任务学习。在美国食品和药品管理局 (FDA)批准的521款临床医疗人工智能模型产品中,大多数仅获得了 1 或 2 个任务的批准。大模型具有较强的泛化能力和上下文学习能力,可以灵活、直接地应用于多个医疗任务而无需特定任务的训练和标注数据。

二、大模型突破数据标注的困境
开发传统有监督的医疗人工智能模型时,需要大规模的标注数据才能形成运行良好的模型。大规模、高质量的标注数据集需要医疗领域专家的参与,成本高、时间长。大模型利用自监督学习或强化学习方式,在无标注数据上进行预训练,在一定程度上减轻了标 负担和创建大规模标注数据集的工作量,也更加适配生物医学、临床和健康相关各类数据爆炸式增长的时代。在一些可用 据较少的临床场景,大模型可带来显著的人工智能效果提升。

三、大模型更加用户友好和易于使用
大模型具有接受人类的自然语言 (汉语、英语等)作内输入的能力,这使得外行和医疗专业人员都能够方便地访问大 型,也使得复杂的医疗信息更易于访问和理解。大模型还提供通过自定义查询与模型进行交互的能力。在当前实践中,AI模型通常处理单一任务,并产生预先确定的输出 (例如,当前模型可能会检测某种特定疾病,输入一种图像,并始终输出该疾病的可能性)。相比之下,大型语言模型具有强大的生成能力,能够以自然语言的方式进行自定义查询,而不是传统检索式的查询方式,允许用户提出更加多样、更加口语化和更加自然的问题,诸如 “这张头部MRI扫描图中的肿块更可能是肿瘤还是脓肿?”之类的问题。

四、大模型有望支持更加灵活的多种数据模态组合运用
一些严格的多模态模型通常将预定义的模态集合作为输入和输出 (例如,必须始终同时输入图像、文本和实验室结果)。相比之下,大模型具有更灵活 乡模态交互方式,有望使用各种数据模态接 输人和产生输出 (例如,可以接受文本、图像、实验室结果或任何组合),支持用户自由地组合各种医疗数据模态类型。

五、大模型具有更深入理解医学知识的潜力
与临床医生不同,医学AI模型在接受特定任务训练之前通常缺乏医学领域知识,必须仅依赖于输入数据特征与预测目标之间的统计关联,来推导数据关系。当针对特定医学任务的数据很少时,模型表现不佳。而大模型具有更复杂的网络结构和更多参数,通过结合知识图谱结构、检索式方法等技术,可以学习大量医学知识,更深入、更全面地理解医学概念和它们之间的关系,检索上下文中类似案例。这使得大模型能够推理出以前未见过的任务,并使用医学准确的语言解释相关的输出。

(2)医疗大模型的生态框架

人工智能大模型赋能生命科学与医疗领域发展的生态架构主要由“上游基础层-中游模型层-下游应用层”三层构成。鉴于生物数据的敏感性和医疗场景的严肃性,监管治埋和安全能力对医疗健康大模型的负责任创新发展至关重要,贯穿于行业发展各领域和全过程。

  1. 基础层提供算力和数据支撑资源。基础层是支撑AI大模型研发和应用落地的必要资源,包括算力基础设施和数据基础设施。其中,算力基础设施包括通用计算芯片、AI计算加速芯片、计算服务器、存储服务器、通信网络、云服务、容器/虚拟化等;数据基础设施涉及数据采集和标注、生物信息学数据库、专病数据库、多模态医疗数据库资源等。
  2. 模型层形成大模型研发、管理和运维体系。模型研发是在算法研发所需的编程环境(语言)人算法框架、开发平台和工具等基础上,研发产出大型语言模型、视觉大模型、图学习大模型、语言条件多智体大模型、多模态大模型以及生物计算大模型等,完成生物医学自然语
    言处理、生物医学图像识别、生物医学语音语义识别、生物分子设计等任务。模型管理和运维主要包括系统管理、接口管理、数据处理等。
  3. 应用层实现药、械、医、健多场景触达用户。大模型首先赋能生命科学和药械研发,相关应用起步早、发展快、成果较为突出。同时,大模型在医学影像、医疗问答和智能问诊、辅助诊疗和临床决策支持、医学信息提取和生成、行政流程优化、个人健康管理、医保商保、医学教育等方面的应用价值日益凸显,场景探索加速。大模型技术有望为生命科学与医疗行业多个环节带来更加精确、高效、人性化的服务,提升整个生态系统的质量和效率。

医疗大模型的技术体系及演进

(1)大模型响应生物大数据时代的数据特征和应用需求。

1.1 大模型特点突出,赋能通用医疗人工智能发展

大模型具有大参数、大数据、范式灵活、策略高效等特点
大模型是一种利用海量、多元化数据预训练的深度神经网络模型,能够在不同任务中实现信息生成和推理等能力,具有涌现能力和较强的泛化性、通用性、实用性,在医疗、交通、金融等众多垂直行业场景上,初步展现了惊艳的性能表现和巨大的发展潜力。大模型通常基于Transformer等主流架构,通过自注意力机制和并行计算提高性能和泛化能力。大模型的主要特点有:1)参数规模巨大,从数亿到百万亿不等;2)数据量庞大,无标签数据用于预训练,数据规模可达数亿至万亿Token;3)范式灵活,先用无监督学习预训练,再微调和适应各种下游任务;4)学习策略高效,能够在零样本、单样本或少样本的情况下,提取、总结、翻译和生成文本信息,甚至支持推理。

大模型有望成为通用医疗人工智能的核心技术和基础设施
大模型具有高度灵活、可重复使用的技术特点,为通用医疗人工智能(Generalist Medical Artificial Intelligence,GMAI)提供了新的可能性。传统医疗人工智能模型是为解决特定任务而设计、训练的,依赖大量的有特异性注释和标签的数据集进行专门的训练,这种狭隘的、针对特定任务的方法使得模型僵化,只能适用于执行训练数据集和其标签预定义的任务。作为对比,大模型这一人工智能新范式是在大型、多样化的无标签数据集上进行自我监督学习而构建的,可应用于众多下游任务。多模态架构、自监督学习技术以及模型的上下文学习能力等新技术,使得基于大模型开发通用医疗人工智能成为可能。未来医疗健康大模型有望灵活地解释不同的医学模态组合,包括来自成像、电子健康记录、实验室结果、基因组学、图表或医学文本的数据,并将产生表达能力更强的输出,例如自由文本解释、口头建议或图像注释,展示高级医学推理能力。

1.2 大模型引领智能时代人工智能开发新范式新变革

人工智能技术不断演进,进入数据驱动的新发展阶段
人工智能经历了漫长的孕育期,最早可追溯到亚里士多德的演绎逻辑,并随着人类对智能的认识不断深入而不断进化。1943年,麦卡洛克和皮茨研制出世界上第一个人工神经网络模型(MP模型),开创了以仿生学观点和结构化方法模拟人类智能的途径;1948年,美国数学家威纳创立了控制论;1950年,图灵明确提出“机器能思维”的观点;1956年,麦卡锡在达特茅斯大学夏季学术研讨会上首次提出“人工智能”术语,人工智能的发展进入到了第一个小高潮时期;随后,历经罗森布拉特、瓦普尼克、沃伯斯等人的努力,多层感知机(MLP)和反向传播算法逐渐成熟并得到广泛应用;1980年,机器学习成为人工智能发展的独立分支,从数据中获取经验,打破了基于规则建模的困境;2006年,辛顿正式提出了深度学习的概念,人工智能进入了第二个小高潮时期,针对特定应用场景专门训练的深度神经网络,即小模型,开始不断涌现。以深度学习为代表的人工智能,本质上是一种数据驱动的智能,首先进行模型训练,从大量的数据中“学习”出一些规则而生成一个模型;然后进行模型推理,运用这些规则来解决实际问题生物进化是多层次上经历自然选择的结果,包括基因序列、蛋白质序列、蛋白质互相作用等层面,这些结果并不随机,而是蕴含一定的规律规则。通过使用包含生物信息的大规模数据进行训练,大模型能够分析生物进化的特点和规律,在一定程度上模拟生物进化的过程,进而具备预测能力,加快生命现象和生命活动规律的研究及发现,助力生物基础科研和医疗技术水平的提升。

数据的爆炸式增长对人工智能技术能力提出新需求
随着知识、数据、算法和算力等关键要素的快速发展,大数据时代出现了数据量巨大、类型多样、价值稀疏、时效性高等特征,给人工智能的发展带来了新的挑战和需求。一方面,有标签训练集的缺乏和不平衡限制了小模型在特定任务下的性能和泛化能力;另一方面,传统深度学习方法,如循环神经网络(RNN)、卷积神经网络(CNN)等,难以存储和有效利用数据知识。“大数据+大算力+大参数”模型作为一种解决方案乘势而上,悄然酝酿着人工智能在新时代的范式转变。在生命科学与医疗领域,生物数据的复杂性、多样性和海量性,患者数据的敏感性和隐私性,以及科学研究和临床应用对准确性和可靠性的高标准,更使得传统的深度学习方法难以满足行业数字化和智能化发展的需求及挑战。

1.3 Transformer架构奠定大模型主流算法架构基础

Transformer引入注意力机制,提高了深度学习模型的性能和效率。2017年,谷歌首次提出了Transformer架构,其摒弃了此前MLP、RNN和CNN的处理结构,而是利用自注意力(Self-Attention)机制来得到输入和输出之间的全局依赖关系,能够捕捉到长距离的依赖关系和上下文信息,具备并行性灵活性和可拓展性等优点.Transformer架构引入了并行化,可以结合图形处理单元(GPU)或张量处理单元(TPU)在大规模的数据集上进行训练,从而提高了计算效率。基于Transformer的模型具有多用途,不局限于单一模态(文本)上,也演化出了可以用于语音、图像、视频等多模态任务的版本,灵活地进行数据融合和交互。Transformer架构同样具备良好的可拓展性,可以通过增加参数规模和训练数据规模,来提升模型的性能和泛化能力。
Transformer架构为医疗健康大模型的发展提供了强大基础和支撑。20l8年,谷歌提出了基于Transformer的双向编码器表示模型(BERT),它是第一个基于Transformer架构的大模型,在l1个自然语言理解任务上取得了当时最好的结果T,引发了基于Transformer的大模型研究和应用热潮。同样在2018年,OpenAI提出了基于Transformer的生成式预训练模型(GPT),谷歌进一步提出了Vision Transformer(ViT),打通了自然语言处理和计算机视觉之间的壁垒。这些模型不断刷新各种自然语言处理任务的性能记录,推动了人工智能领域从深度学习向大模型的范式转移。
当前,医疗健康大模型主要都是基于Transformer架构或者混合了Transformer架构的神经网络模型。基于Transformer架构的大模型,如BERT系列、GPT系列、ViT系列等,作为大模型的预训练基座模型,可以通过微调、领域适应或领域重训来提高在生物医学任务上的性能。例如,BioGPT、GeneGPT、seGPT、scBERT和MedBERT是分别基于PubMed语料库、NCBI数据库、人类细胞图谱数据、ScRNA-sq数据集和中文临床自然语言文本语料库,进行预训练而得到的生物医学大模型。<此外,结合了Transformer架构的大模型也在不断发展。例如,麻省理工学院提出了一种灵活的基于语言模型的深度学习策略以更好地理解和设计蛋白质,将Transformer与图神经网络结合起来构建了生成式预训练模型,可以用于预测蛋白质的二级结构含量、蛋白质溶解度和序列化任务。

(2)多类型基础模型为医疗健康大模型提供坚实源动力

生命科学与医疗领域涵盖医学文本、医学图像、生命组学、蛋白质工程等多种数据模态。基于不同预训练数据模态的基座模型快速发展,可完成自然语言处理、计算机视觉、图学习等多种任务有效地应对生物医学数据的多样性、复杂性和高维性,促进领域创新和变革。例如,大型语言模型(Large-scale language models,.LLMs)可以用于生成医学文本、回答医学问题、提供医学建议等;视觉大模型(Large-scale vision models.,LVMs)和视觉-语言大模型(Large-scale visionlanguage models,.VLMs)可以用于识别医学图像、生成图像注释:合成图像等;图学习大模型(Large–scale graph learning models,.LGMs)可以用于预测蛋白质结构、设计药物、分析基因组等;语言条件多智能体大模型(Large-scale language-.conditioned rmultiagent models,LLMMs)可以用于实现远程会诊、智能导诊、医疗机器人等;多模态大模型(Large-scale multimodal models,.LMMs)可以用于融合多种医学数据、挖掘数据价值、辅助诊断等。大模型的融合应用有望提升医疗产品创新能力和医疗健康服务水平,也将进一步推动人工智能技术的迭代进步和工程化落地。
在这里插入图片描述 医疗大模型的类别及实例

2.1 大语言模型

大型语言模型是当前医疗健康大模型中数量最多、最为活跃的模型类型
大型语言模型在语言数据上进行预训练,并应用于语言下游任务。不同环境下的语言可以有不同的解释,如蛋白质是生命的语言,代码是计算机的语言。大型语言模型能通过自监督学习,从大量未标记数据中提取有用的语义特征和模式,随后通过微调生成符合人类期望的响应。大型语言模型通常基于Transformer架构打造。Transformer可以分为编码器和解码器两部分,编码器提取输入序列的语义表示,大多用于“翻译”;解码器根据编码器的输出生成目标序列,大多用于“生成”。大型语言模型根据模型架构和执行的任务类型分为三个类别":第一类是纯编码器模型,如BERT及其变体。BERT主要利用双向编码器来捕捉语言中的双向上下文信息,并利用Transformer编码器来提取深层的语义表示,从而将输入文本转换为一系列隐藏状态或特征向量。这些特征向量可以用于各种下游任务,如文本分类、命名实体识别、关系抽取等。纯编码器模型通常使用掩码语言建模(MLM)或下一个句子预测(NSP)等无监督或自监督的目标进行预训练。第二类是纯解码器模型,如GPT系列。GPT是一种基于Transformer的生成式预训练语言模型,主要利用自回归模型来捕捉语言中的上下文信息,~并利用Transformer解码器来提取深层的语义特征,从而实现高质量的文本生成,可以用于文本生成、摘要、翻译等任务。纯解码器模型通常使用下一个标记预测(NTP)或置换语言建模(PLM)等自回归或自监督的目标进行预训练。第三类是编码器解码器模型,如文本到文本传输转换器(T5)和双向自回归转换器(BART)。编码器-解码器模型通常使用序列到序列(Seq2Seq)或去噪自编码(DAE)等自监督或半监督的目标进行预训练。

医疗健康大型语言模型是基于通用大型语言模型的领域增强模型
为了提高大型语言模型在医疗健康领域的专业性和可靠性,通常需要在GPT、BERT、T5等大型语言模型基础上利用基因或蛋白质序列信息、医学文本数据或脱敏后的患者全记录周期内的医疗代码序列,进行再训练或微调,以适应特定领域或任务的需求。例如,ChatDoctor、BioBERT、MedGPT等针对生物医学领域的预训练模型分别基于HealthCareMagic网站的医患对话、PubMed摘要和PubMedCentral(PMC)全文、MIMIC-II临床电子健康记录进行预训练。生物医学大型语言模型已经在生物医学文本挖掘与知识发现、医学对话系统、生物与化学序列等场景中展现出强大的应用能力。

2.2 视觉大模型和视觉-语言大模型

医疗健康视觉大模型快速发展,模型架构和性能有待持续探索和优化
自然语言处理领域Transformer架构的突破,带动了视觉领域大模型的新发展。视觉大模型在视觉数据上进行预训练并应用于视觉下游任务。视觉大模型基于卷积神经网络(CNN)或Vision Transformer(VT)架构,采用监督学习和无监督学习范式进行预训练ViT是一种基于Transformer架构的纯视觉模型,借鉴了自然语言处理中的Transformer自注意力机制,其中将词嵌入替换成了patch嵌入。ViT通过将图片信息切割成patch并进行线性映射,将图像转换为序列输入,从而可以使用Transformer进行编码和解码。ViT在医疗健康领域应用优势突出,能够通过注意力机制有效地学习长期依赖关系,有效地整合多种医学模态,并通过多头注意力结构提供更可解释的模型相较传统的CNN更加高效、更接近人类感知。

整合语言和视觉数据的医疗实际需求,催生出医疗健康视觉-语言大模型
视觉-语言医疗健康大模型可以结合视觉数据(如图像或视频)处理和生成自然语言文本,利用大量的图像-文本对进行预训练,从而学习到视觉和语言之间的对齐和关联,实现多种跨模态的任务,如图像文本生成、检索、分类、标注等。在医疗健康场景中,视觉语言医疗健康大模型可以自动生成医学报告、对医学图像和视频进行标注和解释、通过分析视觉信息辅助临床决策等,为智慧医疗发展提供底层支撑,有望用于个性化预测和早期干预、患者远程监测、疾病诊断等方面。目前,典型的视觉-语言大模型DALL-E CLIP、ALIGN和Flamingo等在医疗领域的应用探索加快,也已涌现出MedViLL、PubMedCLIP、ConVIRT、Med-Flamingol3PLIP等针对医疗健康领域的视觉-语言大模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值