自2022年11月以来,随着以OpenAI 研发的ChatGPT为代表的大语言模型迅速发展,生成式人工智能推动人工智能从算法智能进入语言智能时代。近期,国产的生成式大语言模型人工智能——DeepSeek的爆火引起全球的广泛关注,其引发的轰动效应正在全面革新社会生产力,其中就包括对医疗领域的革新。
根据世界经济论坛发布《人工智能驱动的医疗保健的未来:引领潮流》报告,生成式人工智能在医疗保健领域的增长将比其他任何行业都更快。目前,已有两家上市药企恒瑞医药、信达生物宣布全面接入Deepseek。Deepseek和ChatGPT等大语言模型(LLM)在临床治疗领域更是潜力巨大,能够通过自然语言处理(NLP)和生成式AI技术,辅助医疗决策、优化患者管理并提升医疗效率。但与此同时,AI在医疗领域的应用也面临诸多挑战。下文将简要概述生成式大语言模型在医疗领域的应用和争议。
一
应用场景
-
辅助诊断与决策支持
生成式大语言模型可通过分析大量医疗数据,为医生提供诊断建议、治疗方案参考。如在面对复杂病例时,生成式大语言模型可整合患者病史、症状、检查结果等信息,依据医学知识和过往案例,给出可能的诊断方向和治疗选项排序,帮助医生拓宽思路。在诊断罕见病时,能快速梳理全球范围内的相关病例资料和研究成果,辅助医生做出更精准的判断。
例如,ChatGPT 对于癌症的诊断已经非常准确,可用于决定相关的成像程序(例如,乳房 X 光检查、MRI等),并给出患者病情的描述,用于两种重要的临床表现(乳腺癌症筛查和乳腺疼痛)的诊断。根据相应的美国放射学会(ACR)适当性标准对ChatGPT的反应进行评估。结果显示,ChatGPT获得了中等的总体结果,其在乳腺癌症筛查中的表现明显优于乳腺疼痛1。
在国内,中山大学附属第一医院的王伟团队2开展了一项回顾性研究,收集了中山大学附属第一医院经超声检查和手术切除或细针穿刺的连续患者的甲状腺结节超声图像。使用三种生成式大语言模型(ChatGPT 3.5、ChatGPT 4.0 和 Google Bard)评估其在甲状腺结节诊断中的内部和之间的一致性,并比较了三种模型部署策略(人 - 生成式大语言模型交互、图像到文本 - 生成式大语言模型、卷积神经网络)的诊断性能。结果表明ChatGPT 4.0 和 Bard 在诊断甲状腺结节方面显示出良好的重复性,而 ChatGPT 3.5 表现较差。ChatGPT 4.0 在人 - 生成式大语言模型交互和图像到文本 - 生成式大语言模型策略中表现出色,准确率和敏感性较高。图像到文本 - 生成式大语言模型策略与人类 - 生成式大语言模型交互中涉及两位高级读者和一位初级读者的性能相当,且优于仅涉及一位初级读者的情况。但总体上,卷积神经网络策略的诊断性能优于图像到文本 - 生成式大语言模型策略。因此该研究首次证实了生成式大语言模型在使用病理结果参考标准处理与医学诊断相关的推理问题的可行性。
研究概况图
此外,哈佛大学的余坤兴团队3开发了一款临床组织病理学成像评估基础模型(CHIEF,Clinical Histopathology Imaging Evaluation Foundation)。该CHIEF模型利用两种互补的预训练方法来提取多样化的病理表示:用于切片级别特征识别的无监督预训练和用于全切片模式识别的弱监督预训练,在癌症检测、肿瘤起源预测、基因组图谱预测和生存预测等任务中表现出色。其能够对源于肺、乳腺、前列腺、结直肠、胃、食道、肾、脑、肝、甲状腺、胰腺、宫颈、子宫、卵巢、睾丸、皮肤、软组织、肾上腺和膀胱等组织的19 种癌症进行诊断,检测准确率接近 94%。
CHIEF 模型概述
2. 个性化治疗与患者管理
基于患者的病史、基因组数据、检查结果和最新医学指南,以及患者的生活习惯和实时健康监测信息,模型可以生成个性化的治疗建议,包括药物选择、剂量调整等。例如,针对癌症患者,模型可结合最新临床试验数据推荐靶向药物;在慢性病管理中,AI驱动的虚拟助手能生成饮食、运动指导,并实时提醒用药。
在基因组学方面,Memorial Sloan Kettering癌症中心的David S. Klimstra团队4开发了一种应用于组织学全切片图像的 AI 模型,使用CDH1双等位基因突变(这是乳腺肿瘤中浸润性小叶癌(ILC)的特征性表现)作为基础事实。该模型准确地预测了CDH1双等位基因突变(准确率为 0.95)并诊断了 ILC(准确率为 0.96)。在被 AI 模型分类为具有CDH1双等位基因突变但缺乏这些改变的样本中,共有 74% 显示出替代的CDH1失活机制,包括有害的CDH1融合基因和非编码CDH1遗传改变。对内部和外部验证队列的分析分别显示了 ILC 诊断的准确率为 0.95 和 0.89。AI 模型的潜在特征与人可解释的组织病理学特征相关。因此,这一研究揭示了与强基因型-表型相关性相关的遗传改变可用于开发应用于病理学的人工智能系统,从而促进癌症诊断治疗和生物学发现。
3. 药物研发
生成式大语言模型在药物研发中被用来加速药物发现过程,通过分析大量文献和数据,帮助研究人员识别潜在的药物靶点和化合物。
例如,中国科学技术大学联合微软研究院开发了名为 TamGen 的一种采用类似 GPT 的化学语言模型的方法5,它是一种基于目标感知的分子生成方法,能够生成具有更高合理性、更好药理活性和合成可及性平衡的化合物。TamGen 由化合物解码器、蛋白质编码器和上下文编码器三个模块组成,通过预训练和微调的方式,能够根据靶蛋白的信息生成药物样化合物。TamGen 在生成药物设计方面具有高效性和有效性,能够快速生成大量新颖的化合物,并且在与其他方法的比较中表现出色。此外,TamGen 还被应用于设计针对结核病 ClpP 蛋白酶的新型抑制剂,并通过实验验证了其有效性。将 TamGen 集成到药物发现流程中,识别出 14 种对结核病 ClpP 蛋白酶表现出显著抑制活性的化合物。这些化合物与现有化学文库中的化合物不同,具有新颖的作用机制,为未来 ClpP 抑制剂的发现提供了新的思路。
TamGen 的架构
4. 医患沟通
生成式大语言模型能够改善医患沟通,通过智能问答系统为患者提供健康知识和疾病预防信息,增强患者的健康意识。
例如,耶鲁大学医学院的团队通过收集护士与患者的真实对话语料库,开发特定场景提示工程聊天机器人(SSPEC),比较其与护士的性能,并建立护士与 SSPEC 的协作模型进行评估6。具体为,通过收集两个医疗中心(武汉和深圳)的 10 个站点的 38737 分钟的中文去标识化对话音频,进行知识整理和内部验证,开展消融实验以及进行临床试验等方法进行研究。研究发现,SSPEC 在解决患者查询时所需轮次更少,在真实性、完整性、安全性、同理心、可读性和满意度等方面表现出与护士相似或更优的性能,尤其在提供同理心支持方面超越人类护士。消融实验表明,微调、特定场景知识和提示模板对 SSPEC 性能至关重要。建立护士 - SSPEC 协作模型进行临床试验,结果显示该模型提高了患者满意度,减少了重复查询和负面情绪,且在事实性、完整性、安全性、可读性和同理心等方面表现良好。
护士 - SSPEC 协作模式可行性的随机对照试验
二
争议焦点
1. 数据隐私与安全风险
医疗数据高度敏感,模型的训练与应用涉及患者隐私保护问题。尽管匿名化技术可部分缓解风险,但数据泄露、算法偏见仍可能引发伦理纠纷。例如,模型若基于不均衡的医疗数据训练,可能对少数族裔或特殊群体产生诊断偏差。
2. 技术局限与责任归属
生成式模型存在“幻觉”(生成虚假信息)风险,在医疗场景中可能造成严重后果。例如,模型可能虚构不存在的药物相互作用,或误读影像检查结果。当前全球医疗AI监管体系尚未成熟,如何验证模型可靠性、制定临床应用标准仍是难题。这些技术局限无疑增加了医生的责任风险。
随着 AI 在临床环境中的整合,其虽有潜力革新医疗诊断和治疗规划,但在医疗决策中涉及 AI 时引发了责任不确定性。当AI提供错误诊断建议时,责任应由医生、开发者还是医疗机构承担?这一问题尚未形成共识。在美国,目前针对生成式大语言模型人工智能的立法和监管努力有限且零散,如《平价医疗法案》的修订、美国食品药品监督管理局的非约束性建议及《算法问责法案》等,但这些法规在医疗事故责任方面存在问题7。
3. 生成式AI对标的医疗系统
在医疗荒漠地区(医疗服务水平低的地区),人工智能可以通过多种方式改善医疗服务。例如,利用 5G 技术实现远程医疗、培训社区健康工作者、提供智能聊天机器人和虚拟助手、进行远程诊断和检测等。那么,在训练生成式AI时,应该让模型与大三甲医院所代表的顶尖水平相比,还是更应该对标社区医院?
《新英格兰医学杂志》(NEJM)的主编、哈佛医学院生物医学信息系主任Isaac Kohane则指出有必要对广泛应用的大语言模型开展试验,评估其表现,但试验中的对照组应该是现有医疗系统,尤其是面临初级诊疗医师短缺等问题的系统,而不是理想化的医疗体系8。
总结
生成式大语言模型正在重塑医疗行业的边界,但其发展始终需以患者安全与医疗伦理为基石。技术突破与风险管控的平衡,将是实现“AI+医疗”可持续发展的关键。正如《柳叶刀》所呼吁:“我们需要的不是替代医生的机器,而是能放大人类智慧的技术伙伴。”在这场变革中,唯有坚持科技向善,才能让AI真正成为照亮生命健康的明灯。
AI大模型学习路线
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
扫描下方csdn官方合作二维码获取哦!
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
