Nature正刊重磅！微软、华盛顿大学发布首个全切片数字病理学模型GigaPath

最新推荐文章于 2024-09-06 23:42:37 发布

PaperWeekly

最新推荐文章于 2024-09-06 23:42:37 发布

阅读量170

点赞数

文章标签： microsoft

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247668353&idx=2&sn=a7d1383a1efb54860f1734c2f55f0260&chksm=9799d540b83fd23b6489da248912edc5f2c9f7b7d6057dc212d198a02fec4b59bed02f89caf9&scene=126&sessionid=0

版权

©作者 | 许涵文

单位 | 华盛顿大学计算机学院博士生

研究方向 | 计算生物学

近年来，数字病理学的蓬勃发展成为了精准医学加速突破的重要组成部分。在癌症护理过程中，利用全切片成像技术将肿瘤组织样本转换为高分辨率的数字图像，已经成为常规技术。高达十亿像素级别的病理学图片包含多样的肿瘤微环境信息，为癌症分型诊断，生存率分析以及精准免疫治疗提供了前所未有的契机。

近期，生成式人工智能革命为准确感知、分析病理学图片中的海量信息提供了强有力的解决方案。与此同时，多模态生成式人工智能技术的突破更将助力从时空多尺度理解数字病理学图片并与其他生物医学模态相融合，从而更好刻画患者疾病演变、发展过程，协助医生进行临床诊断和治疗。

然而，由于数字病例学图片的大规模、高像素、特征复杂等特点，从计算角度高效处理和理解其中的复杂模式十分具有挑战性。每张全切片数字化转型之后将包含数十亿像素，其面积达到自然图像的十几万倍，应用现有的计算机视觉模型难度较大。

传统的视觉模型，如 Vision Transformer，其计算复杂度随着输入图片的大小的增加快速上升。同时，临床医学数据具有跨尺度、多模态和高噪声等特点，而现有的病理学模型大多基于标准公开数据集，依然同现实世界的应用具有不小的距离。

为此，来自微软研究院、美国 Providence 的医疗网络和华盛顿大学的研究人员，共同提出了首个全切片尺度的数字病理学模型 GigaPath。GigaPath 模型采取两阶段的级联结构，和微软研究院近期开发的 LongNet 架构，高效解决了十亿像素级别图像的处理和理解问题。

Providence 的研究人员收集到旗下 28 家美国医院的 3 万病人授权的 17 万张全切片数字病理学图片，共计 13 亿张病理学图块。微软，华盛顿大学，Providence 的研究人员合作将 GigaPath 在这些真实世界数据上进行了大规模预训练。

实验结果表明，GigaPath 在 26 个任务，包含 9 个癌症分型和 17 项病理组学任务，在其中 25 项任务取得领先效果，在 18 项任务中显著高于现有方法。研究人员相信，该研究展示了全切片尺度层面的建模和大规模真实世界数据的预训练极其重要，同时，GigaPath 也将为更加先进的癌症护理和临床发现提供全新可能。值得一提的是，GigaPath 的模型和代码已经开源，研究人员欢迎世界各地的研究者一道探索和使用 GigaPath。

论文标题：

A whole-slide foundation model for digital pathology from real-world data

作者单位：

微软潘海峰、华盛顿大学王晟Providence团队

论文链接

https://www.nature.com/articles/s41586-024-07441-w

模型链接：

https://huggingface.co/prov-gigapath/prov-gigapath

代码链接：

https://github.com/prov-gigapath/prov-gigapath

方法

▲ 图1. GigaPath 模型示意图

GigaPath 采用两阶段课程学习，包括使用 DINOv2 的图块级预训练和使用带有 LongNet 的掩码自动编码器的全切片级预训练（见图 1）。DINOv2 是一种标准的自监督方法，在训练教师和学生 Vision Transformer 时结合了对比损失和掩码重建损失。

然而，由于自注意力自身带来的计算挑战，其应用仅限于小图像，例如 256 × 256 图块。对于全切片级建模，我们将扩张注意力（Dilated Attention）从 LongNet (https://arxiv.org/abs/2307.02486) 应用于数字病理学（见图 2）。

为了处理整张全切片的长图像图块序列，我们引入了一系列递增的尺寸，用于将图块序列细分为给定尺寸的片段。对于较大的片段，LongNet 引入稀疏注意力，稀疏性与片段长度成正比，从而抵消平方增长。最大的尺寸片段将覆盖整个全切片。这能够以系统的方式捕获远程依赖关系，同时保持计算的易处理性（上下文长度呈线性）。

▲ 图2 LongNet 模型示意图

主要实验结果

在癌症分型诊断方面，任务目标定位于根据病理切片对细粒度亚型进行分类。例如，对于卵巢癌，模型需要区分六种亚型：透明细胞卵巢癌、子宫内膜样卵巢癌、高级别浆液性卵巢癌、低级别浆液性卵巢癌、粘液性卵巢癌和卵巢癌肉瘤。

GigaPath 在所有九项癌症分型任务中均获得领先效果，在其中六项癌症类别分型中准确率提升具有显著性。对于六种癌症（乳腺癌、肾癌、肝癌、脑癌、卵巢癌、中枢神经系统癌），GigaPath 的 AUROC 达到 90% 或更高。这对于癌症诊断和预后等精准健康领域的下游应用来说是个好的开始。

在病理组学任务中，任务目标定位于仅根据全切片图像预测肿瘤是否表现出特定的临床相关基因突变。该预测任务有助于揭示组织形态和遗传途径之间难以被人类察觉的丰富联系。除了一些已知特定癌症类型和基因突变对之外，载玻片图像中存在多少基因突变信号仍是一个尚无答案的问题。

此外，在一些实验中，研究人员考虑了泛癌场景，即在所有癌症类型和非常多样化的肿瘤形态中识别基因突变的通用信号。在如此具有挑战性的场景中，GigaPath 在 17 项任务中的 16 项中再次达到了领先性能，并在其中 12 项任务中显著优于第二名。Gigapath 可以在整个载玻片水平上提取遗传相关的泛癌和亚型特异性形态特征，为真实世界场景下的复杂未来研究方向打开了大门。

此外，研究者通过引入病理报告进一步证明了 GigaPath 在多模态视觉语言任务上的潜力。此前，关于病理视觉语言预训练的工作往往集中在图块级别的小图像上。相反，GigaPath 探索全切片级别的视觉语言预训练。通过继续对病理学报告对进行预训练，利用报告语义来对齐病理学图像的隐空间表征。这比传统的视觉语言预训练更具挑战性，在不利用任何单个图像图块和文本片段之间的细粒度对齐信息的情况下，GigaPath 在标准视觉语言任务中显着优于三种最先进的病理学视觉语言模型。

总结

通过丰富全面的实验，研究人员证明了 GigaPath 的相关研究工作是全切片层面预训练和多模态视觉语言建模层面的良好实践。值得一提的是，尽管 GigaPath 在多任务上取得了领先效果，在某些特定任务层面依然具有较大的进步空间。同时，尽管研究人员探索了视觉语言多模态任务，但在朝向搭建病理学层面的多模态对话助手的道路上，依然有很多具体问题需要探索。

关于作者

GigaPath 是横跨微软研究院、Providence 医疗系统和华盛顿大学保罗艾伦计算机学院的合作项目。其中，来自微软研究院和华盛顿大学的二年级博士生许涵文和来自微软研究院的首席研究员 Naoto Usuyama 为论文共同第一作者。来自微软研究院 Health Futures 团队的 General Manager Dr. Hoifung Poon (潘海峰), 华盛顿大学的王晟教授，以及 Providence 的 Dr. Carlo Bifulco 为论文的共同通讯作者。

许涵文：华盛顿大学二年级在读博士生。研究方向为 AI 和医学交叉。科研成果发表于 Nature, Nature Communications, Nature Machine Intelligence, AAAI 等。曾担任 Nature Communications, Nature Computational Science 等子刊审稿人。

王晟：华盛顿大学计算机系助理教授，研究方向专注于 AI 和医学交叉。科研成果发表于 Nature, Science, Nature Biotechnology, Nature Machine Intelligence and The Lancet Oncology, 研究转化成果被 Mayo Clinic, Chan Zuckerberg Biohub, UW Medicine,Providence 等多个医疗机构使用。

个人主页：

https://homes.cs.washington.edu/~swang/

潘海峰：微软研究院 Health Futures General Manager，研究方向为生成式 AI 基础研究以及精准医疗应用。在多个 AI 顶会获最佳论文奖，在 HuggingFace 上发布的开源生物医学大模型总下载量达数千万次，部分研究成果开始在合作的医疗机构和制药公司中转化为应用。

个人主页：

https://www.microsoft.com/en-us/research/people/hoifung/

Microsoft Health Futures:

https://www.microsoft.com/en-us/research/lab/microsoft-health-futures/

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Nature正刊重磅！微软、华盛顿大学发布首个全切片数字病理学模型GigaPath

©作者 |许涵文单位 |华盛顿大学计算机学院博士生研究方向 |计算生物学近年来，数字病理学的蓬勃发展成为了精准医学加速突破的重要组成部分。在癌症护理过程中，利用全切片成像技术将肿瘤组织样本转换为高分辨率的数字图像，已经成为常规技术。高达十亿像素级别的病理学图片包含多样的肿瘤微环境信息，为癌症分型诊断，生存率分析以及精准免疫治疗提供了前所未有的契机。近期，生成式人工智能革命为准确感知、分析病理...
复制链接

扫一扫