Nature|PathChat:病理学多模态生成性AI助手的创新与应用|顶刊精析·24-09-21

小罗碎碎念

今日顶刊:Nature

这篇文章今年6月就发表了,当时我分析的时候,还是预印本,没有排版。今天第一篇推文介绍的是Faisal Mahmood ,所以又把这篇文章拉出来详细分析一下。

https://www.nature.com/articles/s41586-024-07618-3

作者角色作者姓名单位名称单位英文名称
第一作者Ming Y. Lu哈佛医学院布里格姆和妇女医院病理科Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School
第一作者Bowen Chen哈佛医学院布里格姆和妇女医院病理科Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School
第一作者Drew F. K. Williamson哈佛医学院布里格姆和妇女医院病理科Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School
通讯作者Faisal Mahmood哈佛医学院布里格姆和妇女医院病理科Department of Pathology, Brigham and Women’s Hospital, Harvard Medical School

这篇文章介绍了一个名为PathChat的多模态生成性人工智能(AI)助手,专为病理学设计。PathChat结合了视觉编码器和预训练的大型语言模型,通过超过456,000个视觉-语言指令进行微调,以理解和回应与病理学相关的复杂查询。

研究者们将PathChat与其他多模态视觉-语言AI助手以及商业可用的多模态通用AI助手ChatGPT-4(由GPT-4V提供支持)进行了比较。PathChat在多种组织来源和疾病模型的多选诊断问题上展现出了最先进的性能。

此外,通过开放式问题和人类专家评估,PathChat在回答与病理学相关的多样化查询时,总体上产生了更准确、病理学家更偏好的响应。


PathChat的开发包括使用一个最先进的视觉编码器(UNI3),并在1.18百万病理图像和标题对上进行视觉-语言预训练。然后将视觉编码器与一个13亿参数的预训练Llama 2大型语言模型(LLM)连接,形成一个完整的多模态大型语言模型(MLLM)架构。最终,使用超过450,000条指令对MLLM进行微调,构建了PathChat。

文章还详细描述了PathChat在多种应用中的能力,包括分析不同器官部位和实践的病理学案例。此外,研究者们还策划了一个高质量的基准测试,用于评估MLLM在病理学中的表现,包括开放式视觉病理学问题。PathChat在这些评估中与其他MLLMs相比,展现出了优越的性能。

最后,文章讨论了PathChat在病理学中的潜在应用,包括病理学教育、研究和人类参与的临床决策。随着技术的成熟,PathChat可能会在未来发挥更大的作用。


一、引言

计算病理学近年来经历了显著转变,得益于数字切片扫描的普及和机构采纳、人工智能(AI)研究的快速进展、大型数据集的易获取性以及高性能计算资源的显著增加[1,2,7]。

研究者们利用深度学习处理多样化的任务,包括癌症亚型分类[8,9]、分级[10,11]、转移检测[12]、生存预测[13-17]、治疗反应预测[18,19]、肿瘤起源部位预测[20,21]、突变预测和生物标志物筛选[22-24]等[25]。

此外,基于大规模未标记组织病理学图像数据集训练的通用视觉编码器模型[26],作为多功能、任务无关的模型基础[3,4],为计算病理学中多项任务的性能和标签效率提升铺平了道路。

然而,计算病理学的发展尚未充分体现自然语言在病理学中的重要作用,后者是解锁丰富、多样化累积人类医学知识的关键,也是模型开发的监督信号,以及强大AI模型与终端用户直观互动的统一媒介。


值得注意的是,在机器学习领域,代表性工作[27,28]表明,大规模视觉-语言表征学习可增强仅视觉的AI模型,赋予其新的能力,如零样本图像识别和文本到图像检索。

根据架构设计、训练数据和目标,预训练的视觉-语言系统通常可以针对特定任务进行微调,范围从回答视觉问题、图像字幕生成到目标检测和语义分割。在医学成像和计算病理学领域,研究者们最近开始利用配对的生物医学图像和说明或报告[29-33]等多样化来源进行视觉-语言预训练,包括开发针对特定领域(如病理学[30,33-35]和放射学[36-38])的类CLIP模型[27]。

在计算病理学领域,一些研究在选定的诊断和检索任务中展示了零样本性能的潜力[30,33,34]。其他研究者尝试了专用的模型以回答生物医学视觉问题或进行图像字幕生成[39-43]。


随着大型语言模型(LLMs)[44-47]的兴起、多模态LLMs(MLLMs)[5,48,49]的快速进步以及生成性AI[50]更广泛领域的发展,计算病理学即将迎来新的前沿,其强调自然语言和人类互动作为AI模型设计和用户体验的关键组成部分,以及强大的视觉处理能力。

多模态生成性AI产品如ChatGPT在广泛的常规、创意和专业用例[6,51]中展示了令人印象深刻的性能,包括编码、写作、摘要、数据分析、回答问题、翻译甚至图像生成,同时通过直观且互动的用户界面提供访问。尽管已有尝试探究其在回答医学相关问题方面的性能[52-57],但其协助专业人士和研究者从事解剖病理学这一高度专业化但重要子领域的能力尚相对未探索。

然而,互动多模态AI副驾驶在病理学中的潜在应用是巨大的。理论上,理解和回应自然语言中复杂查询的能力,可以使病理学AI副驾驶在临床决策制定、教育研究等各个人类参与环节中成为有益的伴侣。


例如,AI副驾驶能够摄取组织病理学图像,提供形态学外观的初步评估,并识别潜在的恶性特征。随后,病理学家或学员可以提供更多关于病例的背景信息,如患者的临床参数和组织部位,并要求模型提出鉴别诊断。

如果认为合理,用户可以请求对辅助测试和免疫组化(IHC)染色的有益建议,以缩小鉴别诊断范围。最后,这些测试结果也可以提供给模型,模型据此做出最终推断并得出诊断。

在研究中,能够总结大型组织病理学图像队列形态学特征的多模态AI副驾驶,有可能实现形态学标记物在大数据队列中的自动量化和解释。在医学教育中,一个准确、按需互动的AI伴侣可能有助于民主化地获取专家级指导和培训,从而缩小地区间医疗保健提供的差距。


二、用于人类病理学的多模态生成性人工智能(AI)副驾驶

本文中,作者开发了一种名为PathChat的多模态生成性AI副驾驶系统,专为人类病理学设计,并由定制微调的多模态大型语言模型(MLLM)驱动。

为了构建一个能够处理视觉和自然语言输入的MLLM,作者从UNI[3]开始,这是一个在超过100万张组织学图像补丁(来自超过100,000张玻片)上使用自监督学习预训练的仅视觉编码器。

作者对UNI编码器进行了进一步的视觉-语言预训练,使用了118万病理学图像和说明对,以使其图像表示空间与病理学文本对齐[34]。随后,将得到的视觉编码器通过多模态投影模块连接到一个拥有130亿参数的预训练Llama 2 LLM[46],形成了完整的MLLM架构(有关PathChat模型的设计和训练的更多细节,请参见“方法和训练PathChat模型”部分)。

最终,使用超过450,000条指令的精选数据集对MLLM进行了微调,以构建PathChat(见图1和扩展数据图1),该系统能够理解病理学图像和文本,并回应复杂的病理学相关问题。


图1提供了PathChat模型的概述,包括指令遵循数据集的策划和PathChat模型的设计。

图1

a部分描述了目前最大的专门用于病理学的指令微调数据集的策划。这个数据集包含了456,916条指令和相应的回应,涵盖了多种格式,例如多轮对话、多项选择题和简短回答。这些数据来自不同的来源,确保了模型能够理解和回应各种类型的查询。

b部分介绍了构建PathChat模型的过程。研究团队从一个最先进的(SOTA)仅视觉的、自监督预训练的基础编码器模型UNI开始,进行了进一步的视觉-语言预训练,类似于CONCH。

然后,将得到的视觉编码器通过一个多模态投影模块连接到一个预训练的、拥有130亿参数的Llama 2大型语言模型(LLM),形成了完整的多模态大型语言模型(MLLM)架构。这个MLLM在策划好的指令遵循数据集上进行了微调,以构建PathChat,这是一个专门用于人类病理学的视觉-语言AI助手。


作者展示了PathChat在各种应用中的能力,包括分析来自不同器官部位和实践的病理学案例(见图2和3)。

图2展示了PathChat在多项选择诊断问题上的表现评估。

图2

a部分提供了一个多项选择诊断问题的示例。在这个问题中,输入总是包括一个由认证病理学家选择的组织学图像的显著感兴趣区域(ROI),以及一个指令,即从一组可能的选择中选择最可能的诊断。在“图像+临床背景”评估设置中,设计得更接近现实世界的诊断工作流程,病理学家设计的相关临床背景(以蓝色显示)与组织学图像一起提供,并附加在原始问题之前。尺度条表示200微米,用于参考图像中的细节大小。

b部分展示了多模态大型语言模型(MLLMs)在多项选择诊断问题上的准确性。这些评估包括了总共105个问题,其中PathQABench-Public(基于公开可用案例的问题,n=52个问题)和PathQABench-Private(基于私人案例的问题,n=53个问题)。需要注意的是,只有对于基于公开可用案例的问题(PathQABench-Public),才会与GPT-4V进行比较。误差条代表95%的置信区间,中心点代表计算出的准确性。

从图2中可以看出,PathChat在诊断准确性方面的表现。当提供临床背景时,模型的诊断准确性可能会提高,因为额外的信息可以帮助模型更好地理解病例的上下文,从而做出更准确的诊断。这种评估方法有助于验证PathChat在模拟真实世界病理诊断中的有效性和实用性。通过与GPT-4V等其他模型的比较,可以进一步了解PathChat在病理学诊断任务中的性能水平。


图3展示了PathChat在开放式问题回答中的评估以及由七名病理学家组成的小组进行的读者研究。

图3

a部分描述了评估工作流程,用于对开放式问题的模型输出进行排名。七名病理学家被招募来评估四个AI助手模型对260个开放式问题的回答。每个问题的模型回答顺序都是随机打乱的,每位病理学家在不知道哪个模型产生了哪个回答的情况下,独立对所有问题的回答进行排名(更详细的信息见“MLLM评估”部分)。尺度条表示200微米,用于参考图像细节的大小。

b部分展示了PathChat与其他MLLMs在开放式问题上的头对头记录,由七名病理学家独立评估。“Win”表示PathChat的排名高于其他模型,“Tie”表示PathChat与模型排名相同,“Lose”表示其他模型的排名高于PathChat。垂直条表示所有七名病理学家的中位胜率(深绿色)和中位赢+平率(浅绿色)。

c部分展示了MLLMs在一组子集(n=235个问题)上的准确性,这些问题是两名病理学家在讨论了模型回答的独立评估后达成共识的。这表明了评估的客观性,因为只有在两位专家达成一致的情况下,问题的回答才被计入分析。

d部分展示了在共识子集上不同类别问题的准确性。这些类别包括显微检查(n=101)、诊断(n=79)、临床(n=61)和辅助检测(n=76)。每个问题可能属于多个类别。在c和d部分中,误差条代表95%的置信区间,中心点代表计算出的准确性。

总体而言,图3提供了PathChat在开放式问题回答中的详细评估,包括与其他MLLMs的比较、病理学家的独立评估以及达成共识的问题的准确性分析。这些评估有助于了解PathChat在病理学相关查询中的性能和可靠性。


此外,作者精选了一个高质量的基准,用于评估MLLM在病理学中的开放式视觉病理学问题的性能,该基准在专家监督下进行筛选(详见“专家筛选的病理学问题基准”部分)。

作者将PathChat与LLaVA[5],一个通用的开源MLLM的SOTA,以及针对生物医学领域定制的LLaVA-Med[53]进行了比较。

尽管作者的模型规模显著更小,服务成本更低,但作者还将其与SOTA商业解决方案ChatGPT-4(由GPT-4V驱动)进行了比较。


三、讨论

计算病理学近年来取得了显著的进步,例如基于图像或基因组数据的日益精确、特定任务的预测模型的开发。

对于组织学图像,最近越来越有兴趣构建基于大量未标记图像的基础任务无关视觉编码器,这些编码器可以为各种监督和无监督下游工作流程提供稳健的特征嵌入。然而,生成性AI技术的爆炸性增长,特别是多模态大型语言模型(MLLM),如ChatGPT,已经开始为计算病理学研究和实际临床病理学应用开辟了可能的新前沿。

具备自然语言理解能力的通用AI模型可以使用文本作为统一媒介,用于灵活地指定用户意图(以定制的提示形式)并产生各种表达水平的输出(从单个单词到二进制或多项选择响应,再到包含推理步骤的连贯句子)。

在进行各种任务(例如,总结、分类、字幕生成、检索、回答问题等)时,这些模型显示出巨大的潜力。对于病理学而言,这样的模型在理论上可以在教育和研究以及人机协同的临床决策制定等广泛场景中发挥作用。


使用诸如从人类反馈中进行强化学习等技术进一步与人类意图对齐,可以降低基于MLLM的AI助手模型的幻觉,并帮助它们捕捉某些特定于病理学的细微差别,例如在仅基于H&E组织学无法排除某些形态相似疾病时请求进一步的上下文信息或测试结果,或在诊断和治疗指南发生变化时寻求对机构特定指南的澄清。

对于实际部署,改进和验证可能也值得进行,以确保模型能够一致且正确地识别无效查询(例如,非病理学相关或无意义的输入)并避免产生意外或错误的输出。

未来的研究可能会进一步增强PathChat和基于MLLM的AI助手的功能,通过添加支持输入整个吉帕像素WSI或多个WSI的功能。这可能会通过提供超出预选代表性ROI的有价值上下文,来扩展它们在诊断挑战性和边缘实体中的实用性。


此外,由于这些模型是在回顾性收集的大数据集上训练的,其中不可避免地包含过时的信息,因此它们可能反映了过去的科学共识,而不是今天的共识。

例如,随着医学术语和指南的发展,引用过时术语“多形性胶质母细胞瘤”的模型响应可能会导致事实上的不准确。除了持续使用最新知识进行训练外,其他研究方向可能涉及编制特定的指令,使模型意识到术语和指南的变化,或使用检索增强生成与持续更新的知识数据库相结合。

最后,为了让这些工具对病理学家和研究更有用,考虑明确支持特定任务(例如精确计数或定位对象)可能是有价值的,并考虑将PathChat类的AI助手与数字切片查看器或电子健康记录等工具集成。

<think>好的,我需要帮助用户明确综述的核心主题。之前已经给过撰写综述论文的步骤,现在用户想更深入了解如何确定核心主题。首先,我要回忆之前的回答,确保不重复但补充更多细节。用户可能已经知道综述的基本步骤,现在需要具体的方法来找主题。 用户可能是刚开始写综述的研究生或学术新人,可能对如何选择合适的研究领域和主题感到困惑。需要分步骤解释,提供具体方法,比如如何评估研究价值、如何缩小范围等。还要注意避免常见错误,如主题过宽或过窄,如何平衡。 可能需要用例子来说明,比如用人工智能领域的具体例子来展示如何缩小主题。还要考虑用户的实际操作,比如使用工具或技巧来帮助确定主题,比如文献计量工具或导师讨论的重要性。 另外,用户可能需要了解如何判断主题是否有足够的研究资料,或者是否过于前沿导致资料不足。要提到如何评估文献数量和质量,如何调整主题范围。 最后,需要确保回答结构清晰,分点列出方法,每个方法下有具体的建议和例子。语言要简明,用中文,避免专业术语过多,必要时用例子解释。同时,注意使用用户之前提到的格式要求,比如行内公式用$...$,独立公式用$$...$$,但在这个问题中可能公式使用不多,不过如果有统计方法或例子中的术语,可能需要使用。 需要检查是否有遗漏的重要步骤,比如如何结合自身兴趣和领域需求,或者如何利用学术网络获取建议。可能还要提到时间管理,确定主题的时间投入。 总结下来,回答的结构应该是分步骤的方法,每个方法有具体操作、例子和注意事项,帮助用户系统地明确核心主题。</think>明确综述的核心主题是撰写高质量综述论文的关键起点。以下为系统化方法实操建议: --- ### **一、定位研究领域的“价值缺口”** 1. **扫描领域动态** - **工具辅助**: - 使用文献计量工具(如VOSviewer、CiteSpace)生成关键词共现网络,识别高频新兴关键词。 -顶级期刊(如Nature Reviews系列)近3年的综述,定位未被覆盖的交叉方向。 - **例**:在“深度学习+医疗诊断”领域,若现有综述集中于影像分,可转向“病理文本数据挖掘”等空白点。 2. **评估研究价值** - **创新性**:是否提出新分类框架(如按“数据依赖程度”划分算法)? - **实用性**:能否指导实践(如“帮助临床医生选择最优AI辅助工具”)? - **例**:选择“联邦学习在医学影像中的隐私保护机制”而非泛泛讨论“医学影像AI”。 --- ### **二、限定主题范围的“黄金法则”** 1. **5W1H聚焦法** | 维度 | 问题示例 | 应用案例 | |-------------|-----------------------------------|----------------------------------------| | **What** | 研究的具体对象是什么? | “Transformer模型”而非“深度学习” | | **Where** | 限定应用场景 | “自动驾驶中的实时目标检测” | | **When** | 时间范围 | “2020年后基于对比学习的推荐系统” | | **Why** | 解决什么特定问题? | “缓解推荐系统的冷启动问题” | | **Who** | 目标读者 | “临床医生”或“算法工程师” | | **How** | 方法论侧重点 | “基于元学习的少样本分类” | 2. **范围检验标准** - **可检索性**:输入拟定主题到数据库,若文献量>1000篇则需缩小(如增加限定词:“小样本”“跨模态”)。 - **可管理性**:确保能在3-6个月内完成文献阅读(一般控制核心文献50-80篇)。 --- ### **三、构建“主题-问题”映射矩阵** 将宽泛主题转化为具体研究问题,避免综述流于表面描述: | 初始主题 | 细化后的问题簇 | |-----------------------------|------------------------------------------------------------------------------| | 图像分割技术发展 | - 从全监督到弱监督学习的演变动因?<br>- 医学影像自然图像的算法迁移瓶颈? | | 区块链在供应链中的应用 | - 不同共识机制对溯源效率的影响?<br>- 如何平衡去中心化合规性需求? | --- ### **四、规避常见误区** 1. **陷阱1:主题过宽** - **错误示例**:“机器学习研究进展” - **改进策略**:叠加双重限制条件,如“面向高维不平衡数据的机器学习算法(2018-2023)” 2. **陷阱2:主题过时** - **检查方法**:在Google Trends中查看关键词搜索量趋势,确保主题处于上升期或平台期。 3. **陷阱3:缺乏争议性** - **激活点**:选择存在方法论争论的方向(如“图神经网络能否替代Transformer?”) --- ### **五、验证迭代** 1. **预检索验证** - 在Web of Science执行试检索,若发现: - 相关论文<20篇 → 扩大时间范围或合并相近关键词 - 相关论文>200篇 → 增加技术/场景限定词 2. **专家反馈环** - 制作“主题可行性评估表”咨询导师,包含: ```plaintext [ ] 是否有足够高质量文献支撑 [ ] 是否具备理论/应用创新空间 [ ] 是否符合课题组资源优势 ``` --- ### **六、经典案例参考** - **优质主题范例**: “基于自监督学习的医学图像分割:方法比较临床适配性分(2020-2023)” - 方法限定:自监督学习 - 场景聚焦:医学图像 - 研究角度:技术对比+落地挑战 --- 通过上述方法,可系统化地将模糊的兴趣转化为具有学术价值的综述主题。建议使用“概念图”工具(如XMind)可视化主题关联,最终形成类似$$ \text{核心主题} = \text{技术方法} \cap \text{应用场景} \cap \text{时间窗口} $$的明确界定。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值