近来,微软对于提示工程能力的最新研究①(链接详见文末)再次吸引了一众媒体的目光:“无需额外微调、无需专业策划,仅凭提示GPT-4就能化身专家!”报道中这样描述道②。
基于最新提示策略Medprompt,GPT-4在医疗专业领域MultiMed QA的九个测试集中,均取得最优结果。不仅如此,在MedQA数据集(美国医师执照考试题)上,Medprompt还令GPT-4的准确率首次超过了90%,超越了BioGPT和Med-PaLM等微调方法。
▲图为Artificial Intuition作者Carlos E. Perez在社交媒体上坦言“出色的提示策略可以更胜微调一筹”,相关内容还获得沃顿商学院教授Ethan Mollick等的转发
基于上述报道,全新AI技术对医疗领域的颠覆式影响可见一斑。事实上,早在ChatGPT发布之初,微软创始人比尔·盖茨(Bill Gates)就曾有言:以GPT为代表的技术革命将改变世界③。医疗健康作为现代社会中人类最关心的领域,必将出现革命性的变化,创新式技术、方法的不断涌现将更有利于提高诊疗水平、降低疾病风险、改善生活质量。
对于技术之于医疗的关系,OpenAI创始人萨姆·奥尔特曼(Sam Altman)也曾表示——运用AI提高人类健康水平,将为全世界带来巨大的益处。
但前进之路并非坦途,AI医疗或将面临多方考验。本期专栏文章,我们基于《The AI Revolution in Medicine: GPT-4 and Beyond》(中译版名为《超越想象的GPT医疗》)一书,探讨AI大模型与未来医疗前景。
专栏导读
“2023年是具有里程碑意义的一年。这一年,如同蒸汽机之于工业革命,人工智能已然成为颠覆世界的新生产范式。随着Copilot时代的到来,AI工具跃升成为人们工作、生活不可或缺的部分,全面提升着全球生产力水平,为人类应对那些最紧迫的挑战提供着支持。
GPT技术的最新突破对医疗健康等领域产生了深远甚至颠覆性的影响,专业人士有必要抓住AI带来的机会,获得更高的效率,完成更有意义的工作。微软希望通过持续创新,让全球80亿人都能够享受到更加个性化的智能医疗服务,让不可能成为可能。”
——微软全球资深副总裁张祺
#1
当AI与医疗相遇
▲AI辅助医疗创意图 © 由New Bing生成
当AI与医疗相遇,究竟会发生什么?首先,让我们一起看看来自《超越想象的GPT医疗》引言部分的一个GPT医疗场景。(*注:该示例并非现实,因GPT-4尚未在医院中广泛应用,但所描述的情景完全符合OpenAI GPT-4系统的现有能力。)
▲图为《超越想象的GPT医疗》中文版封面,该书的作者之一彼得·李(Peter Lee)系微软全球资深副总裁,领导微软研究院及新技术孵化业务,包括如今快速发展的医疗和生命科学领域
患者的病情突然恶化。他的心率急速上升至每分钟 160次以上,但血压却降至危险的80/50毫米汞柱。患者面庞苍白,略带青紫,并急促地喘息着。然而,这并不像是他患有的囊性纤维化的典型症状。作为二年级的医学住院实习生,克里斯腾一边拨打紧急号码,一边与其他团队成员一起迅速采取行动,将一支又一支注射器插入患者的静脉输液器,试图通过注入升压药物来提高血压,但这并未奏效,用于增强心肌收缩力的药物同样没有效果。
克里斯腾拿出手机,打开GPT-4应用程序,说道:“患者胡安对血压支持没有反应。他的病历显示,他最近接受了诺氟沙星第二阶段研究引发的血液感染治疗。我不知道发生了什么,也不知道怎么办。”
▲AI辅助医疗创意图 © Getty
GPT-4回复: “胡安所使用的实验性抗生素与5% 的患者白细胞减少有关,这一结论源于最近发表的一篇第二阶段研究论文。在过去两天内,他的白细胞计数在连续三次抽血检测中呈下降趋势。研究发现,G-CSF(粒细胞集落刺激因子) 在恢复白细胞数量方面具有很好的效果。这是一个值得考虑的策略。”
克里斯腾立刻明白了其中的意思,由于胡安的白细胞减少,他变得易感染,导致了败血症的发生。她致电药房,要求发送一剂 G-CSF 输注液,同时准备详细核查这项新研究结果,对GPT-4说:“让我看看那篇第二阶段研究报告。”
研究概述和相关论文都出现在她的手机屏幕上,她请求GPT-4 为她概括这些信息。果然,感染病学杂志上的报道印证了 AI所言,并且最新的实验室数据显示,患者的白细胞数量甚至低于她在接触化疗的时候。克里斯腾实施了输注,看着胡安被送往了重症监护室。
她对GPT-4说道:“给他注射了 G-CSF,希望能见效。”
▲AI辅助医疗创意图 © Getty
GPT-4回应道: “面对患者病情如此迅速地恶化,确实压力很大。先前的研究表明,在其他患者中也观察到类似的状况,而且G-CSF 的疗效始终稳定。请放心,你已竭尽所能,你的团队会与你同在。”
她对着手机说:“胡安需要更换一种更昂贵的抗生素。我得向他的保险公司申请预先授权。请帮我写一段理由,我将把它填入表格中。”
“好的。”几秒钟后,一段300 字的文本出现在她的手机屏幕上,这是为保险公司预授权申请表格而准备的。文本概述了胡安曾使用过的所有其他抗生素及其对这些药物的耐药性记录。同时,它简要介绍了关于他所需的新抗生素的7项研究,并估计了如果保险无法支付这种药物的费用,可能导致的因长期住院而产生的翻倍费用。
“请将这段文字和预授权表格的链接发送至我的收件箱,”克里斯腾边走边说,走向下一个患者。
在这个虚拟案例中,GPT-4 可以根据可靠的信息来源回答患者或专业人士的医学问题;能运用自然语言生成技术从医疗记录或文献中提炼摘要或报告;还能借助自然语言理解技术帮助医护人员进行临床决策或记录,减轻烦琐的文书工作。
更让人振奋的是,想象已经照进现实,这样的故事正在真实上演④。
4岁男孩Alex在某次运动后,身体开始剧痛。Alex的母亲Courtney在三年时间里带他看了17名医生,从牙科、儿科、骨科到各种专家,先后进行了磁共振成像(MRI)等一系列检查,但没一个真正找出病因。
▲医疗创意图 © Getty
直到不抱太多希望的母亲Courtney注册了一个ChatGPT账号,整个事件出现了180度大逆转。Courtney将Alex的症状和MRI报告中的注释一并输入对话框,其中有一个细节,就是Alex无法完成盘腿坐的动作。ChatGPT给出了诊断——脊髓栓系综合征(TCS)。
Courtney带着这一结论和Alex的MRI报告,找到了神经外科医生。这次终于找对了人,神外医生看了一眼MRI就给出了和ChatGPT一样的结论,并指出了栓系的具体位置!后来Alex接受了手术治疗,目前正在进行康复。
在上述的两个案例中,GPT-4似乎拥有异常丰富的医学知识,或许有不少读者会心存疑虑,GPT-4真有这么厉害吗?
就GPT-4目前的表现看来,它,确实强大得令人惊叹。
#2
3大技能叠加
AI能力实测
· 技能1:学富五车,无所不知
在医疗领域应用大模型前,我们首先感兴趣的是,大模型的医学知识是否足够。美国职业医师资格考试是美国医学界对具有执业医师资格的医学生和毕业生进行的一种标准化考试,通过考试后,才可以获得在美国执业的资格。当使用一整套美国职业医师资格考试问题对GPT-4进行测试时,GPT-4的正确率超过90%。作为目前最先进的大模型代表,虽然GPT-4并非专门为医学领域打造,但其展现出的医学知识能力已经非常出色,将大模型应用于医疗领域让许多人非常看好。
· 技能2:医护人员的智能助手
在传统医疗健康领域,医护人员和患者是该领域中的两个重要组成部分。对医护人员来说,大模型是一种能够与人合作、提升工作效率的智能助手。
大模型拥有强大的自然语言处理能力,借助语音识别等技术,能够根据医生和患者之间的交流,自动帮助医生生成电子健康记录,以及填写保险的事前授权等,把医生从这些繁琐的工作中解放出来。这具有十分重要的现实意义,使得医护人员有更多的时间用于关爱患者,从而在亲自从事护理时获得更高的成就感。在治疗方面,大模型可以帮助医生对病人的病历和医学数据进行更加全面和深入的分析,给出相应的治疗建议,帮助医生制定更加精准的治疗方案,提高医生的诊断水平和治疗效果。
· 技能3:患者的超级医疗顾问
对于患者来说,大模型可以作为高级的医学知识搜索引擎,充当患者的超级医疗顾问。当今全球有一半的人口,约40亿人缺乏足够的医疗保健服务(书中第119页),AI大模型丰富的医学知识,在很大程度上可以填补医疗保健服务的空白,这对于偏远贫穷地区的人们格外重要,并能为贫穷人员节省许多就医费用。
▲AI辅助医疗创意图 © Getty
同时,GPT-4等大模型本身具有强大的自然语音理解和对话能力,在和患者聊天的过程中,GPT-4不仅回答内容条理清晰,还能对一些伴有主观情绪的问题做出有效回复,让人感觉到它充满同情心,能够与患者共情。虽然大模型不是人,不具备人的情感,但能在一定程度上缓解、减轻患者的焦虑,这本身就具有十分重要的意义。
因此,微软公司前副总裁格雷格·穆尔博士认为,AI 医学正朝着一个全新的医疗体系演进,在传统的“医生-患者”关系中引入AI实体,作为三角关系的第三支柱。不管是从医生还是患者的角度,大模型都是一个全新的AI伙伴,能够与人密切协作。
但是,不得不提的是,目前的AI远非完美,它既需要继续学习,也需要被有效监管。
#3
机遇与挑战并存,
AI修炼还需“仁心”
首先,作为AI研究人员,我们需要思考的是,如何充分利用大模型的能力,来畅想和构建未来的医疗。
生成式的大模型,并不总是提供真实的信息,因此需要对结果进行仔细审查。医疗错误一直以来都是个顽固的问题,技术的进步与危险错误信息的增加总是相伴相生,新技术的运用需要尽可能地避免加重这一问题。微软总裁布拉德·史密斯在《工具,还是武器?》一书中提到,当一个技术或工具能力非常强大时,它所带来的帮助和危害同时也是巨大的。作为计算机科学的研究人员,需要始终考虑,如何以负责任、安全和有效的方式利用大模型。
正因为如此,微软成立了专门的研究部门“人工智能道德委员会 ”,以保证人工智能技术和大模型应用的公平性、可靠性和安全性。
在中文语境下,我们形容德才兼备的医者“妙手仁心”,AI想成为“妙手”或许不难,但要习得“仁心”却任重道远。从临床医学的角度,应用AI 大模型带来的不可避免的问题在于,大模型缺乏一个明确的人来衡量价值体系,因此难以检验医疗过程中的人性化关怀。
▲AI辅助医疗创意图 © Getty
例如,大模型没有明确指标来表示,一位钢琴家宁愿冒着死亡的风险,也不愿因糖尿病引发的坏疽症而截取手指。大模型的回答目前还无法周全考虑患者的偏好、价值观、对风险的态度以及人类的众多偏见。纵然GPT-4能够在执业资格考试中取得优异成绩,但这是否就足以让患者和医生对大规模应用GPT-4这样的大模型感到安心?答案恐怕不尽如人意。
要让大众对大模型做出的医疗决策有足够的信心,需要我们对大模型进行更深入、更全面的研究和探索,需要我们对安全利用大模型有更深层的思考和更有效的掌控,只有这样,最终大模型在医疗领域才能够真正落地,造福人类。
问题重重,答案寥寥。如微软(中国)公司首席技术官韦青所言,尽管当下AI领域时有日新月异的突破,但是没有答案的问题远多过有答案的问题。如何塑造我们的AI未来,以期实现单凭人类或AI无法实现,而人类与AI结合却可以完成的目标,达到更高的成就,是我们当下需要重点思考和着手研究的问题。
LLM专栏作者:房磊
微软(亚洲)互联网工程院
高级研究员
参考资料
1.https://arxiv.org/pdf/2311.16452.pdf
2.https://mp.weixin.qq.com/s/l5WJnpF9sY6htciztYUEnQ
3.https://www.cnbc.com/2023/02/10/bill-gates-says-ai-like-chatgpt-is-the-most-important-innovation.html
4.ChatGPT Diagnosed A Boy's Pain. 17 Doctors Over 3 Years Could Not (today.com)
欢迎关注微软 智汇AI 官方账号
一手资讯抢先了解
感谢喜欢,点击一下 在看 吧