小罗碎碎念
推文速览
第一篇文章介绍了SEQUOIA,一个能够从全切片图像预测癌症转录组轮廓的深度学习模型,并验证了其在多种癌症类型中的准确性和泛化能力。
第二篇文章介绍了一个多模态深度学习模型MRP,用于预测乳腺癌患者对新辅助疗法的反应,并在准确性上超越了人类专家。
第三篇文章讨论了如何利用人工智能技术构建一个多尺度、多模态的虚拟细胞模型,以推动生物医学研究的进展。
背景补充
【1】从WSI中预测癌症转录组轮廓的工作流程
【2】乳腺癌新辅助治疗(NAT)的三个阶段
【3】人工智能虚拟细胞(AIVC)的用途
一、SEQUOIA模型:全切片图像中的癌症基因表达预测
一作&通讯
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Marija Pizurica | 斯坦福大学生物医学信息学研究中心(Stanford Center for Biomedical Informatics Research, BMIR) |
第一作者 | Yuanning Zheng | 斯坦福大学生物医学信息学研究中心(Stanford Center for Biomedical Informatics Research, BMIR) |
第一作者 | Francisco Carrillo-Perez | 斯坦福大学生物医学信息学研究中心(Stanford Center for Biomedical Informatics Research, BMIR) |
通讯作者 | Olivier Gevaert | 斯坦福大学生物医学数据科学系(Department of Biomedical Data Science) |
通讯作者 | Kathleen Marchal | 根特大学互联网技术和数据科学实验室(Internet Technology and Data Science Lab, IDLab) |
文献概述
这篇文章介绍了一种名为SEQUOIA的新型深度学习模型,它能够从全切片图像(WSIs)中预测癌症的转录组轮廓。
这项研究由斯坦福大学、根特大学和罗氏诊断公司的研究人员共同完成。SEQUOIA模型利用7584个跨16种癌症类型的肿瘤样本开发而成,并在两个独立队列中的1368个肿瘤上验证了其泛化能力。该模型能够准确预测与关键癌症过程相关的基因,包括炎症反应、细胞周期和代谢。此外,SEQUOIA在乳腺癌复发风险分层和局部区域水平上的空间基因表达解析方面显示出了价值。
文章强调了癌症是一种异质性疾病,需要昂贵的基因分型以便更好地理解和管理。SEQUOIA模型的开发旨在通过深度学习从全切片图像中成本效益高地预测遗传改变。研究结果表明,SEQUOIA在预测基因表达水平方面表现出色,平均有15,344个基因在16种癌症类型中被显著良好预测。此外,SEQUOIA还显示出在独立队列中具有较高的泛化能力,并能够识别在TCGA和CPTAC队列中均表现良好的基因。
研究还对预测的基因表达值进行了通路水平分析,发现这些基因在调节细胞周期、T细胞激活、DNA复制和细胞粘附等方面发挥作用,这些功能与癌症的发展和进展密切相关。SEQUOIA还用于开发了一个数字签名,用于预测乳腺癌复发的风险,并展示了通过组织学图像预测的基因表达值足够用于风险分层。
最后,文章讨论了SEQUOIA在预测肿瘤组织内局部区域基因表达模式方面的潜力,并使用两个独立的空间转录组数据集验证了其性能。研究结果表明,SEQUOIA在预测与GBM恶性程度和预后相关的空间基因表达模式方面具有潜力。文章认为,通过结合算法进步、生物学功能、临床相关性和泛化能力的深入分析,SEQUOIA展示了使用基于Transformer的深度学习模型从全切片组织学图像中预测高维基因表达特征的潜力。
SEQUOIA模型的工作流程
这张图片概述了SEQUOIA模型的工作流程,分为三个部分:
a. 展示了SEQUOIA模型开发和验证所针对的癌症类型
包括头部和颈部(HNSC)、脑(GBM)、肺(LUAD, LUSC)、胰腺(PAAD)、肾脏(KIRP, KIRC)、乳房(BRCA)、胃(STAD)、结肠(COAD)、皮肤(SKCM)、膀胱(BLCA)、肝脏(LIHC)和子宫(UCEC)。
b. 描述了模型的训练和评估过程
使用来自TCGA数据库的16种癌症类型的匹配全切片图像(WSIs)和批量RNA测序数据。模型在CPTAC和Tempus队列中独立验证。
除了预测组织层面的基因表达,还整合了一种空间预测技术,用于阐明肿瘤组织内区域层面的基因表达模式,并使用两个空间转录组数据集进行验证。通过评估模型预测癌症复发的能力,展示了其临床应用价值。
c. 展示了SEQUOIA模型的架构和基准测试的变体。
首先,从WSI中采样N个瓷砖。使用在ImageNet上预训练的ResNet-50或UNI提取特征向量。然后,将特征向量聚类成K个簇,簇内平均值产生K个聚合特征向量。
接下来,使用多层感知器(MLP)、变压器(tformer)或线性变压器(tformer-lin)(后跟MLP)来预测基因表达值。
二、多模态深度学习模型MRP:精准预测乳腺癌新辅助疗法反应
一作&通讯
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Yuan Gao | 荷兰马斯特里赫特大学医学中心GROW肿瘤与发展生物学学院 |
通讯作者 | Tao Tan | 中国澳门理工学院应用科学学院 |
通讯作者 | Ritse Mann | 荷兰癌症研究所放射科、医学影像科 |
文献概述
这篇文章介绍了一个名为多模态响应预测(MRP)系统的深度学习模型,用于预测乳腺癌患者在接受新辅助疗法(NAT)期间的治疗反应。
MRP系统通过整合多模态数据,包括放射学、病理学、临床和个人信息,来预测乳腺癌患者的病理完全缓解(pCR)。该系统特别关注在实际临床环境中模拟医生对NAT反应的评估,并考虑了不同治疗阶段的数据依赖性和模态间的关联。
研究基于超过3000名患者的数据,涵盖了所有乳腺癌分子亚型,并在NAT治疗过程的各个阶段进行了评估。MRP模型在预测pCR方面表现出比基于临床病理特征的单模态模型更优越的能力,通过整合多模态放射学成像和纵向MRIs,达到了0.889的AUROC。
MRP系统在预测pCR方面与放射科医生相比展现出了可比性和泛化性,在Pre-NAT阶段显著优于人类专家。此外,MRP还进行了特征重要性分析,以了解结构化和基于图像的特征/模态对pCR预测的贡献,并进行了消融实验以评估跨模态知识预测器和时间信息嵌入组件的贡献。
研究结果表明,MRP在不同NAT阶段预测pCR方面具有潜力,并可能对NAT试验的入组和确定手术范围产生深远影响。MRP的设计包括跨模态知识预测器和时间信息嵌入,确保了其在处理纵向多学科信息和不同临床现实中的应用能力,同时兼容缺失数据。通过在三个国际外部数据集上评估其性能,展示了模型在不同人群中的泛化能力。
文章最后讨论了MRP在乳腺癌个性化治疗管理中的潜在临床工具作用,并指出了研究的局限性,包括需要进一步的前瞻性临床试验来增强模型的临床证据,以及生存分析来进一步评估MRP的预后潜力。作者还强调了未来工作的方向,包括整合额外的成像模态,如病理幻灯片和超声,以提高模型性能。
乳腺癌新辅助治疗(NAT)的三个阶段
这张图片展示了乳腺癌新辅助治疗(NAT)的三个阶段:
a. Pre-NAT阶段:乳腺癌分期
- 患者首先接受包括年龄、绝经状态、性别、基因突变等基本信息的收集。
- 通过乳房X线摄影(Mammography)和超声(US)进行肿瘤筛查和诊断。
- 利用BI-RADS评估肿瘤的组成、位置、多灶性(Multifocality)和腋窝状态(Axillary status)。
- 进行组织病理学检查(Histopathological examination)和诊断性活检(Diagnostic biopsy)。
- 乳房分期MRI(Breast staging MRI)用于评估肿瘤位置、多中心性(Multicentricity)和多灶性。
- 分子类型(Molecular subtype)、肿瘤组织学(Tumor histology)、肿瘤分化(Tumor differentiation)和原位成分(In situ component)等信息被用于进一步分析。
b. Mid-NAT阶段:治疗中期
- 进行中期NAT MRI(Middle-NAT MRI)以评估治疗反应。
- 根据中期MRI结果,治疗管理(Therapy management)可能会调整,特别是对于无反应的患者。
c. Post-NAT阶段:反应分析
- 再次进行乳房MRI(Re-staging MRI)以评估患者是否达到病理完全缓解(pCR)。
- 随后,患者接受手术,并进行组织病理学检查,评估治疗后的病理肿瘤(ypT)和淋巴结分期(ypN)。
这张图详细描述了乳腺癌新辅助治疗的路径,包括从初步诊断到治疗反应评估的全过程。
三、AI模拟细胞行为:人工智能在生物研究中的应用与挑战
文献概述
这篇文章是关于如何利用人工智能(AI)构建一个虚拟细胞(AIVC)的前瞻性观点。
文章强调了细胞在理解健康和疾病中的重要性,并指出传统的模型在模拟和模拟细胞功能和行为方面的不足。随着AI和组学技术的进步,我们现在有机会创建一个基于大型神经网络的多尺度、多模态的AIVC,这可以代表和模拟不同状态下的分子、细胞和组织的行为。
文章概述了AIVC的设计愿景,并讨论了如何通过协作努力构建AIVC来改变生物研究,使其能够进行高保真度的模拟,加速发现,并指导实验研究。AIVC将为理解细胞功能提供新的机会,并促进开放科学中的跨学科合作。
- 引言:介绍了细胞的复杂性以及构建虚拟细胞模型的挑战,包括多尺度建模、多样过程和大量相互作用组件的复杂性,以及非线性动力学。
- AIVC的能力和设计评估框架:讨论了AIVC应具备的核心能力,如何评估这些能力,以及如何设计适当的评估指标和数据收集。
- 在不同架构和背景下建立自我一致性:强调了AIVC模型必须在不同的生物学尺度、上下文和测量方式中保持自我一致性。
- 平衡可解释性和生物学效用:讨论了深度学习模型在生物学应用中的性能增益与其“黑箱”特性之间的权衡,以及如何平衡模型的可操作性和可解释性。
- 构建协作细胞建模框架:预测了AIVC平台作为开放、互联的协作开发和广泛部署细胞模型的枢纽的未来。
- 理解不同数据类型的价值以优先考虑大规模数据生成:探讨了为了实现跨生物学背景和尺度的泛化,应收集哪些数据和模态。
文章最后强调了开放科学方法的重要性,鼓励跨部门和领域的所有利益相关者参与这一努力,以实现对细胞的更深入理解和科学探索的新时代。
人工智能虚拟细胞(AIVC)的用途
这张图展示了人工智能虚拟细胞(AIVC)的能力,分为三个主要部分:
A. 多模态测量和通用表示
- 多模态测量:包括基因组信息(例如全基因组测序)、表型信息(例如多重成像、单细胞RNA测序)、空间亚细胞分子定位(例如荧光显微镜)和空间信息(例如空间转录组学)。
- AI虚拟细胞基础模型:将这些多模态数据整合成一个基础模型。
- 通用表示(UR):在分子、细胞和多细胞尺度上生成的通用表示。
B. AI虚拟细胞的能力和应用
- 参考图谱:提供细胞状态的参考。
- 连续动态:模拟细胞状态随时间的变化。
- 内在扰动:模拟细胞内部因素引起的变化。
- 外在扰动:模拟外部因素对细胞的影响。
- 空间生态位:识别细胞在组织中的空间位置和相互作用。
- 新细胞状态发现:预测和发现新的细胞状态。
- 体外实验:在计算机模拟中进行实验,这些实验在实验室中可能成本过高或不可能进行。
- 数字孪生:创建细胞的数字副本,用于模拟和预测。
C. 社区和开发
- 互动:AIVC与用户之间的交互。
- 评估:对AIVC性能的评估。
- 可解释性:确保AIVC的决策和结果是可理解的。
- 隐私:保护AIVC中敏感数据的隐私。
- 协作:在科学界内部的合作,以改进和维护AIVC。
- 责任:确保AIVC的开发和使用符合道德和社会责任。
这张图强调了AIVC在生物医学研究中的潜力,以及它如何通过提供跨物种和条件的通用细胞状态表示来推动科学发现。同时,它也指出了AIVC在实际应用中需要考虑的社区发展、隐私保护和责任问题。