WS-T2T-ViT:一种新型弱监督模型用于提高鼻咽癌病理图像分类精度|文献精析·24-08-23

小罗碎碎念

今天分享的这篇文章于2024年发表于《IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》,目前IF=6.7。

鼻咽癌病理AI相关的文章相比于其他的癌种来说,比例较低,之前的研究也多聚焦于影像组学的研究。昨天刚好在整理文献,突然想看看鼻咽癌最新的一个研究进展,然后就找到了这篇文章。

image-20240822142506573

角色姓名单位
第一作者Ziwei Hu福州大学物理与信息工程学院
通讯作者Tong Tong福建医科大学附属福建肿瘤医院病理科
通讯作者Gang Chen福建医科大学附属福建肿瘤医院病理科

代码是开源的,如果对这篇文章的研究内容感兴趣,想要复现一下试试效果的,欢迎关注我接下来的推文。

交流群都五六百号人了,乳腺癌、肺癌、膀胱癌、子宫内膜癌的都有研究,至今还没碰到过研究鼻咽癌的,希望能通过这篇推文找到一点小同行,互相交流一下,哈哈。


文献速览

这篇论文提出了一种基于弱监督学习的鼻咽癌(NPC)分类框架,使用Tokens-to-Token Vision Transformer(WS-T2T-ViT)模型,仅需切片级标签即可实现准确的NPC分类。

  1. 研究背景

    • 问题:鼻咽癌(NPC)是一种恶性肿瘤,病理检查是其诊断、治疗指导和预后判断的重要因素。然而,传统的NPC诊断算法需要手动勾画全视野图像(WSI)中的感兴趣区域(ROI),这不仅费时费力,而且容易产生偏差。
    • 难点:由于WSI的超高分辨率和GPU内存限制,手动标注像素级标签的成本极高,且非专家病理医生难以准确诊断。
    • 相关工作:现有的全监督分类方法依赖于大量的手动标注数据,而弱监督学习方法则尝试通过减少标注需求来解决这一问题。已有研究表明,Transformer模型在图像分类等任务中表现出色,但在WSI级别的分类任务中尚未得到充分探索
  2. 研究方法

    • 提出了一个基于Tokens-to-Token Vision Transformer(T2T-ViT)的弱监督框架(WS-T2T-ViT),用于NPC分类。该框架包括多分辨率金字塔、T2T模块和多尺度注意力模块
    • 多分辨率金字塔机制:模仿病理医生从粗到细的分析过程,学习不同放大倍数下的特征。具体来说,图像被分割成不同放大倍数(x10、x20、x40)的小块,以捕捉从宏观到微观的多层次信息
    • T2T模块:通过软分割和重构过程,逐步缩短token的长度,捕捉局部和全局特征。软分割通过滑动窗口生成token,避免信息丢失并建立周围的相关性。
    • WS-T2T-ViT主干:采用深度-窄结构设计,减少信息冗余并增加特征丰富性。通过嵌入正弦位置编码(PE)来补充位置信息和类别信息。
    • 多尺度注意力模块:计算不同尺度网络的贡献,分配不同的权重以提高分类性能。通过sigmoid函数和加权比例分配策略,结合不同分支的特征,生成最终的分类结果。
  3. 实验设计

    • 在802例NPC患者和CAMELYON16数据集上进行了广泛的实验。实验采用五折交叉验证,80%的数据用于训练,20%用于测试。
    • 数据预处理阶段,图像被分割成不同放大倍数(x10、x20、x40)的小块,并去除背景和模糊伪影。每个切片随机选择500个小块进行训练
    • 使用Adam优化器优化网络,初始学习率和权重衰减分别设置为 1 e − 4 1e-4 1e4 1 e − 5 1e-5 1e5。训练过程中,如果验证集上的AUC连续10个epoch(MIL方法为20个epoch)没有提升,则停止训练。
  4. 结果与分析

    • 在NPC数据集上,WS-T2T-ViT实现了0.989的AUC、0.953的准确率、0.971的精确率、0.932的敏感性、0.973的特异性和0.951的F1-score。
    • 在CAMELYON16数据集上,WS-T2T-ViT的AUC为0.834,准确率为0.814,F1-score为0.750,表现出良好的泛化能力和鲁棒性。
    • 消融实验表明,多分辨率金字塔、T2T模块和多尺度注意力模块均对分类性能有显著提升。
  5. 总体结论

    • 提出了一个高效的弱监督框架WS-T2T-ViT,利用Transformer模型和多分辨率特征提取,显著提高了NPC分类的性能。
    • 该方法减轻了专家标注成本,推进了Transformer在计算机辅助组织学图像分析中的应用。

通过这篇论文,作者展示了弱监督学习和Transformer模型在NPC分类中的潜力,为未来的研究提供了新的思路和方法。


一、引言

鼻咽癌(NPC)是一种位于鼻腔后部和咽部上方的恶性肿瘤。根据2021年的统计数据,全球报告了133,354例新发NPC病例和80,008例死亡病例[1]。NPC具有明显的地理分布特征,在东南亚和北非地区流行[2]、[3]。针吸活检的组织病理学检查可以直接反映鼻咽组织的内部病变,为NPC的识别和诊断提供了金标准[4]。

经苏木精-伊红(H&E)染色的病理切片,提供了丰富的肿瘤微环境信息,如细胞层面的空间排列、组织和细胞形态以及细胞类型[5]。然而,这些形态的多样性和复杂性给病理诊断带来了挑战,尤其是对于经验不足或非专业的病理学家[6]。

全切片图像(WSIs)的出现使得数字病理图像分析技术可用于病理诊断[7]。基于人工智能的图像分析算法也逐步应用于组织病理学WSIs,以减轻病理学家诊断的时间成本[8]、[9]。在数字病理学中,癌变或非癌变的分类是一项特殊任务。鉴于组织病理学图像的吉咖像素分辨率和GPU内存限制,研究者通常从WSIs中提取感兴趣区域(ROI)的斑块,训练基于斑块卷积神经网络(CNN),并将斑块级别的预测结果汇总到WSI级别[10]。


近年来,基于监督学习的分类方法取得了优异的性能,能够快速从数据源中学习代表性特征。

大多数分类方法基于CNN进行特征提取和病理图像病变区域的分类。预训练的VGG19网络[11]已应用于自动分类结直肠癌组织的WSIs[12]。

类似地,Graham等[13]提出了一种分类框架,用于训练由病理学家绘制的ROI数据,并使用随机森林分类器区分WSI类别。Kumar等[14]结合传统机器学习方法和深度学习方法,对犬乳腺肿瘤和人类乳腺癌进行分类,平均准确率分别为97%和93%。Khan等[15]提出了一种基于迁移学习的多网络框架,用于分类四种乳腺癌类型。提取的乳腺癌特征被输入到拼接层,形成了一个稳健的混合模型。


许多基于CNN的方法也已提出用于NPC的全监督分类[16]、[17]。

Diao等[17]训练了Inception-v3网络[18],用于分类NPC、炎症和淋巴组织增生,平均AUC为0.936。然而,这些基于WSI的分类方法要么需要精心设计的>manual features,要么高度依赖肿瘤区域的详细描述。

肿瘤区域通常散布在WSI上,并与大量非癌变区域混合。传统深度学习网络仅在局部特征上训练,而临床病理学家在初步诊断时需要检查低倍镜下的切片(全局特征)。


弱监督学习逐渐应用于病理图像分析

弱监督学习解决了像素级标注的限制,并支持无需广泛手动标注的分类任务。现有方法大致分为经典弱监督学习和多实例学习(MIL)。

前者假设WSI的所有斑块都带有切片标签。Coudray等[19]最早提出了一种基于CNN和斑块级预测平均的弱监督方法。值得注意的是,数据集的所有图像斑块都继承了其切片级别的标签进行分类。一种新的CNN方法被开发出来,并用于基于弱监督深度学习对结直肠癌进行分类和定位[20]。Schrammen等[21]应用了一种基于ShuffleNet[22]的端到端神经网络,训练了结直肠癌继承的图像斑块,并实现了0.980的AUC。

对于基于MIL的方法,关键思想是包和实例的组合,多个实例被分组在包中。单个斑块的详细标签是未知的。只有当包至少包含一个正标签实例时,该包才被标记为阳性,否则被标记为阴性。一些研究[23]、[24]已经展示了使用基于MIL的变体的切片级标签进行二分类器的卓越结果,其中斑块和WSIs被转换为实例和包。开发了一个对称的MIL框架,专注于属性信息[25]。Li等[21]提出了一种多分辨率MIL模型,该模型利用基于注意力的聚类模型结合斑块级特征。


近年来,Transformers在自然语言处理领域的流行激发了研究者探索其在计算机视觉领域的潜力。

最近在某些任务上展示了前瞻性的成果,如图像分类[26]、[27]、目标检测[28]、[29]和视觉-语言网络共建[30]。

视觉Transformer(ViT)[26]是第一个用于图像分类的完整transformer模型。Yuan等[31]提出了一种新的Tokens-To-Token Vision Transformer(T2T-ViT),通过有效建模图像的结构信息并提高特征丰富性,克服了ViT的不足。Yin等[32]将T2T-ViT模型应用于基于MIL方法的甲状腺病理图像分类。

然而,他们的数据集并未达到WSI级别,而是停留在斑块级别的诊断。


本文提出了一种基于Tokens-to-Token Vision Transformer(WS-T2T-ViT)的弱监督框架,用于NPC的切片分类,仅使用WSI级别的标签。

受T2T-ViT[31]的启发,作者用Transformer替换了传统的CNN特征提取网络,以精细地学习局部特征,同时利用双层分支和T2T模块丰富地提取全局信息。所有训练斑块图像都成功继承了其WSIs的全局标签。


图 1 展示了所提出的 WS-T2T-ViT 框架的架构示意图,该架构由两个不同放大倍数(×40 和 ×20)的子网络组成。

image-20240822145846768

下面是对框架的分析:

  1. WSI 分割:整个幻灯片图像(Whole Slide Image, WSI)首先被分割成小块的平铺图像(patch images)。

  2. T2T 模块:这些平铺图像随后被送入 T2T(Tokens-to-Token Vision Transformer)模块。T2T 模块的作用是将图像转换为一系列的 token。Token 是 Transformer 模型中的基本单元,可以捕获图像的局部特征

  3. WS-T2T-ViT 主干网络:T2T 模块输出的固定长度的 token 被输入到 WS-T2T-ViT 的主干网络中。这个主干网络利用 Transformer 架构来进一步提取和处理特征。

  4. 多尺度注意力模块:在主干网络之后,多尺度注意力模块会计算不同子网络的特征,并为它们分配相应的概率权重。这个模块能够根据特征的重要性来调整每个子网络对最终分类结果的贡献。

  5. 分类输出:最后,结合了多尺度特征和经过权重调整的子网络输出,框架生成最终的分类结果。

整个框架的特点是能够处理不同放大倍数的图像,并通过 Transformer 架构来捕获局部和全局的特征,从而提高分类的准确性。此外,多尺度注意力机制使得模型能够更加灵活地处理不同尺度的特征,进一步提升模型性能。


二、材料与方法

2-1:数据集

本研究建立了包含802张WSIs的数据集。

总数/张鼻咽癌(NPC)腺样体增生慢性炎症
80237535374

在375名被诊断为NPC的患者中,93.78%为非角化未分化型。

在本研究中,慢性炎症和腺样体增生的病例被共同归类为良性。未采用三分类的主要原因是在鼻咽区域,长期的炎症刺激倾向于诱导淋巴组织增生,导致临床诊断中慢性炎症和腺样体增生同时存在。这种并发情况显著模糊了这些状况之间的区别,从而阻碍了针对慢性炎症和腺样体增生创建离散且可靠的分类器。

最终,本研究纳入了375张带有肿瘤标签的WSIs和427张带有正常标签的WSIs,其中男女比例大约为9:5(515:287)。参与者的平均年龄为48岁,加权平均年龄在25%至75%之间为38至57岁。比较组在年龄、性别和病理类别上存在显著差异(P值<0.05)


表 I 提供了参与该研究的患者的人口统计学和临床特征的汇总。

image-20240822150411163

  • 所有参与者总数:共有 802 名参与者。
  • 无肿瘤的参与者:427 名参与者的样本中没有检测到肿瘤。
  • 有肿瘤的参与者:375 名参与者的样本中检测到了肿瘤。
  • 年龄:所有参与者的平均年龄是 48 岁,年龄范围从 38 到 57 岁。通过 χ2 检验,年龄在不同组别(无肿瘤和有肿瘤)之间存在显著差异(P < 0.05)。
  • 性别:男性有 515 名(64.21%),女性有 287 名(35.79%)。性别在有无肿瘤的两组间存在显著差异(P < 0.001),男性在肿瘤组中的比例更高。
  • 组织病理学分类:慢性炎症 74 例,腺样体增生 353 例,鼻咽癌 375 例。慢性炎症和腺样体增生在本研究中被归类为良性。
  • 鼻咽癌的 WHO 分类:非角化未分化型 352 例(占鼻咽癌的 93.87%),非角化分化型 23 例(占鼻咽癌的 6.13%)。

每个切片经H&E染色后,保存为未压缩的高分辨率WSI。作者数据集中的所有切片均使用PRECICE 600数字扫描仪(UNIC Technologies)以最大可用分辨率×40(0.25 µm/像素)进行扫描。三名具有至少15年临床经验的福建癌症医院认证病理学家进行了WSI级别的标注(正常或肿瘤)


CAMELYON16数据集[33]包含399张乳腺癌淋巴结有无转移的WSIs。训练数据集包括111张带有乳腺癌转移的WSIs和159张无转移的WSIs。测试数据集单独提供,包含129张WSIs,其中49张含有转移。所有含有肿瘤的切片均具有像素级标注。这些标注被用于训练经典弱监督方法。所有模型训练均在训练数据集上进行五折交叉验证,并在官方测试数据集上进行评估。


2-2:图像预处理

将WSIs在×10、×20和×40放大倍数下分割成较小的非重叠图像斑块。相应的斑块尺寸如下:

  1. ×10(1 µm/像素)的图像使用128×128斑块
  2. ×20(0.5 µm/像素)的图像使用256×256斑块
  3. ×40(0.25 µm/像素)的图像使用512×512斑块。

这种方法旨在模仿病理学家的诊断过程,他们通常以不同的放大倍数检查WSI的一个区域。


作者根据每个放大倍数切割不同大小的斑块。通过在不同放大倍数下保持一致的组织面积,每个斑块与其在不同放大倍数下的对应斑块相关联。这种一致性确保了模型可以准确地将同一组织区域在不同放大倍数下的斑块进行关联和比较

在特征提取过程中,移除了含有背景(斑块上组织面积小于50%)和模糊伪影的斑块。采用Python 3.7中OpenCV包的Canny边缘检测技术来检测前述斑块。从每个切片中随机选择500个斑块继承切片的标签

所有网络训练仅使用切片级别的标签,而无需WSI的手动像素级标注

数据预处理的源代码可在开源许可下获得,网址为:https://github.com/KatherLab/preProcessing。


2-3:方法

在本节中,作者提出了一种新的NPC分类框架,该框架包括四个部分:多分辨率金字塔机制、T2T模块、WS-T2T-ViT主干网络和多尺度注意力模块。每个切片i(i=1,2,…,N)都有自己的标签yi。

在数据预处理阶段,切片在×40和×20放大倍数下被分割成斑块图像。从每个切片中随机抽取500个斑块并标记为它们的切片标签,这适当地平衡了每个切片的贡献。

此外,×40和×20放大倍数的斑块图像分别输入到相应的分支中。


算法 1 描述了 WS-T2T-ViT(Weakly Supervised Tokens-to-Token Vision Transformer)的训练流程。

image-20240822153631975

  1. 输入参数

    • N:病理幻灯片的数量。
    • R:训练的轮数(epoch)。
    • m:每张幻灯片随机选择的图像瓦片(tile)数量,这里设置为 500。
    • AB:分别代表 ×20 和 ×40 放大倍数下的图像瓦片数据集。
  2. 输出参数

    • 训练后的 WS-T2T-ViT 模型参数 ηA,B f , ηA,B k , ηA,B j
  3. 训练循环

    • 外层循环:进行 R 轮训练。
    • 中层循环:遍历每张幻灯片 n
    • 内层循环:对每张幻灯片的 m 个图像瓦片进行处理。
  4. T2T 模块处理

    • 对于每张图像瓦片 xn,m,使用 T2T 模块 Hf 进行处理,生成对应的 token 序列 gn,m
  5. 特征提取

    • 使用 WS-T2T-ViT 主干网络 Hk 提取处理后的图像瓦片的特征 ˜qA n,m˜qB n,m
  6. 多尺度注意力模块

    • 通过多尺度注意力模块 Hj 为不同尺度的特征分配权重 wA n,mwB n,m
  7. 分类预测

    • 根据加权的特征,使用逻辑函数 Hl 计算每个图像瓦片的分类概率 yn,m
  8. 循环结束

    • 内层循环处理完所有图像瓦片后,中层循环继续处理下一张幻灯片。
    • 中层循环结束后,外层循环进入下一轮训练。
  9. 模型训练结束

    • 完成所有训练轮次后,模型训练结束,得到最终的模型参数。

此算法的关键在于 T2T 模块和多尺度注意力模块,它们共同工作以提取图像特征并进行有效的分类。T2T 模块通过将图像分割成 token 并逐步调整这些 token 的长度来捕获局部和全局的特征。多尺度注意力模块则根据特征的重要性为不同尺度的特征分配权重,以提高分类的准确性。最终,模型通过所有训练数据的迭代学习,优化其参数以实现最佳的分类性能。


图 2 描述了 Token-to-Token (T2T) 模块中 “软分割”(Soft Split) 的过程,这个过程是逐步改变 token 序列长度,并重新构建图像形状以准备下一次分割的关键步骤。

image-20240822153913111

  1. Soft Split(软分割):这是一种滑动窗口方法,用于从图像中生成 token。通过在图像上滑动窗口来创建固定长度的序列,这些序列代表了图像的局部区域。

  2. Token 长度递减:在每次 Soft Split 之后,token 的长度会逐渐减少。这是通过减少窗口大小来实现的,从而在下一次迭代中捕获更细粒度的图像特征。

  3. Transformer 编码:将生成的 token 序列输入到 Transformer 编码器中。编码器利用多头自注意力机制(Multi-Head Self-Attention, MSA)来处理 token,使模型能够捕捉 token 之间的相互关系。

  4. Reshape 操作:Transformer 编码器的输出是一个连续的 token 序列,Reshape 操作将这些序列重新组织成与原始图像相同的形状,但维度可能会有所不同。

  5. 迭代过程:这个过程是迭代的。在每次迭代中,都会应用 Soft Split 和 Reshape 操作,直到达到所需的 token 长度。每次迭代结束时,都会得到一组新的 token,这些 token 将作为下一次 Soft Split 的输入。

  6. 准备下一次 Soft Split:在 Reshape 操作之后,token 被重新组织成原始图像的形状,但可能具有更丰富的特征表示,为下一次 Soft Split 做好准备。

  7. 特征丰富性:通过这种逐步细化的过程,T2T 模块能够捕获从粗糙到精细的多尺度图像特征,这对于病理图像分析尤为重要,因为它可以更好地模拟病理学家的诊断过程。

  8. 输出准备:经过一系列迭代后,最终的 token 将被用作 WS-T2T-ViT 主干网络的输入,以进行特征提取和分类。

总之,图 2 展示了 T2T 模块如何通过逐步细化和 Transformer 编码来处理图像,从而为深度学习模型提供丰富的多尺度特征表示。这种方法有助于提高模型对图像内容的理解,尤其是在复杂的病理图像分析任务中。


2-4:评估指标

在实验中,使用了多个指标来评估WS-T2T-ViT的分类性能,包括:

  1. ROC曲线的接收者操作特征曲线下面积(AUC)
  2. 准确性
  3. 精确度
  4. 敏感度
  5. 特异度
  6. F1分数

这些指标的定义如下:
AUC = ∑ i ∈ p o s t i v e C l a s s R a n k i − M ( 1 + M ) 2 M × N \begin{equation} \text{AUC}=\frac{\sum_{i\in postiveClass}Rank_i-\frac{M(1+M)}{2}}{M\times N} \end{equation} AUC=M×NipostiveClassRanki2M(1+M)
其中M和N分别是正样本和负样本的数量; R a n k i Rank_i Ranki是指第 i i i个样本的序列号,它是将所有预测样本的分数从小到大排序并标签化。
$$
\text{Accuracy}=\frac{TP+TN}{TP+FP+TN+FN} \

\text{Precision}=\frac{TP}{TP+FP} \

\begin{aligned}\text{Sensitivity}=\frac{TP}{TP+FN}\end{aligned}\

\text{Specificity}=\frac{TN}{TN+FP}\

\text{F1-score}=\frac2{\frac1{Precision}+\frac1{Sensitivity}}
$$
其中TP、TN、FP和FN分别表示真正例、真反例、假正例和假反例。


2-5:计算机硬件和软件以及统计分析

作者使用PyTorch(版本1.12.1)和CUDA(版本10.2.0)实现了所有弱监督网络和算法,并在NVIDIA RTX 3090Ti GPU上进行训练。

作者的全切片处理过程在Python(版本3.7.7)中进行,并使用了图像处理库,如pillow(版本9.2.0)、openslide(版本1.2.0)和opencv(版本4.6.0.66)。作者使用Pytorch深度学习库加载数据并使用作者的框架进行实验。

真AUC的95%置信区间(CIs)通过基于替换采样的1000次自助法进行估计。χ 2 检验用于比较802个患者队列的临床特征差异。此类统计分析使用了Statistical Program for Social Sciences 22.0(IBM SPSS,Armonk, NY, USA)。P值小于0.05被认为是统计显著性的阈值。


三、结果

3-1:实现细节

本研究的比较和消融实验在五折交叉验证中进行,其中80%用于训练,20%用于测试。在每折中,将训练集的10%进一步随机分割为验证集,用于评估模型在训练过程中的性能和选择模型。测试集在训练结束后用于评估模型。作者使用Adam优化器来优化网络,并将初始学习率和权重衰减分别设置为1e-4和1e-5。

所有经典弱监督网络都在ImageNet[34]上进行预训练,所有基于MIL的弱监督网络使用预训练的ResNet[35]模型来提取图像特征。在每次训练迭代中,如果经典方法(MIL-based方法)在验证集上的AUC连续10个周期(20个周期)没有改善,训练将停止。这一标准在所有折叠中一致应用,以保持模型选择过程的一致性和可靠性。

在训练集中进行随机采样,限制每个患者的斑块数量为500,以最小化模型对拥有大量斑块的患者产生的偏见[36]。如图3所示,作者使用分层随机采样方法从每个WSI中提取100、300、500、1000和2000个斑块。

实验结果表明,最佳的NPC分类性能,由AUC和准确度指示,是在500个斑块集上实现的。因此,作者选择了500个斑块作为代表每个WSI的最佳数量,确保了WS-T2T-ViT的有效性和效率。


图 3 展示了 WS-T2T-ViT 模型在不同数量的图像瓦片(tile numbers)采样情况下,其在接收者操作特征曲线下面积(AUC)和准确率(Accuracy)上的性能表现。

image-20240822155429915

  1. 性能指标
    • AUC(Area Under the ROC Curve):衡量模型分类性能的一个指标,反映了模型在所有可能的分类阈值上的性能。AUC 值越高,模型的分类能力越好。
    • Accuracy:准确率,即模型正确分类的样本数占总样本数的比例。
  2. 采样数量
    • 图中展示了不同数量的图像瓦片采样,例如 100、300、500、1000 和 2000 个瓦片。
  3. 性能变化趋势
    • 通常,随着采样数量的增加,模型的性能会有所提升,因为更多的数据可以提供更丰富的特征信息。
    • 然而,当达到某个点之后,性能提升可能会趋于平缓,甚至出现下降。这可能是由于过拟合或者计算资源的限制。
  4. 最优采样数量
    • 模型在采样 500 个瓦片时性能最佳,这表明该数量提供了足够的信息,同时避免了过拟合或计算效率问题。
  5. 实验目的
    • 该实验的目的是为了确定最佳的图像瓦片采样数量,以便在实际应用中实现模型的最佳性能。

图 3 是一个关键的实验结果,它帮助研究者理解模型性能与数据采样数量之间的关系,从而为实际应用中的数据准备和模型调优提供了依据。


3-2:NPC分类性能

作者评估了WS-T2T-ViT在NPC分类任务中的切片级分类性能。

表II展示了WS-T2T-ViT与其他方法在NPC分类任务上的性能比较。这些方法包括:

  1. 基于图的方法(HEAT [37])
  2. 基于Transformer的方法(MMIL-Transformer [38] 和 Swin Transformer [27])
  3. 五种经典弱监督方法(ResNet50 [35]、Inception-v3 [18]、EfficientNet-B7 [39]、基于ViT的方法 [40] 和 T2T-ViT [31])
  4. 四种基于MIL的方法(MIL [41]、AttMIL [42]、CLAM [43] 和 DAS-MIL [44])。

表 II 展示了在鼻咽癌(NPC)数据集上不同模型的分类性能对比。

image-20240822155808555

  1. 模型列表:表格列出了多种不同的模型,包括基于图(Graph-based)的方法、基于 Transformer 的方法、以及几种经典的弱监督学习方法和基于多实例学习(MIL)的方法。

  2. 性能指标:每个模型的性能通过以下几个指标来衡量:

    • AUC(Area Under the ROC Curve):接收者操作特征曲线下面积,衡量模型分类能力的统计量。
    • Accuracy(准确率):正确分类的样本数占总样本数的比例。
    • Precision(精确度):正确预测为正类的样本数占预测为正类的样本数的比例。
    • Sensitivity(敏感度):也称为召回率,正确预测为正类的样本数占实际为正类的样本数的比例。
    • Specificity(特异度):正确预测为负类的样本数占实际为负类的样本数的比例。
    • F1-score(F1 分数):精确度和敏感度的调和平均值,衡量模型的平衡性能。
  3. 性能比较

    • 表格中的每一行代表一个模型,列展示了该模型在 NPC 数据集上的性能。
    • 从表中可以看出,WS-T2T-ViT 模型在所有指标上都取得了最高的性能,AUC 达到了 0.989,Accuracy 为 0.953,显示出其在 NPC 数据集上具有优越的分类能力。
  4. 模型优势:WS-T2T-ViT 模型的性能明显优于其他模型,这可能归功于其采用的多尺度特征学习和 Transformer 架构,这些特点使得模型能够更好地捕捉图像的局部和全局特征。

  5. 其他模型:表中还包括了其他几种模型,例如 ResNet50、Inception-v3 和 EfficientNet-B7 等,这些都是基于卷积神经网络(CNN)的经典模型。尽管它们的表现也不错,但与 WS-T2T-ViT 相比仍有差距。

  6. MIL 方法:表中还列出了一些基于多实例学习的方法,如 MIL、AttMIL、CLAM 和 DAS-MIL。这些方法通常用于处理病理图像中的弱标注问题,但在这个数据集上的性能没有超过 WS-T2T-ViT。

  7. 结论:根据表 II 的数据,可以得出结论,WS-T2T-ViT 模型在 NPC 数据集上表现出色,可能是由于其结合了多尺度特征和 Transformer 架构的优势,有效地提高了模型的分类性能。

总体而言,表 II 为比较不同模型在特定医学图像分类任务上的性能提供了一个量化的视角,突出了 WS-T2T-ViT 模型的优势。


图 5 展示了 WS-T2T-ViT 模型生成的鼻咽癌(NPC)概率热图,与原始的 H&E(苏木精-伊红)染色的全切片图像(WSIs)和 EBV 编码的小 RNA(EBER)原位杂交的结果进行比较。

image-20240822160202422

  1. H&E WSI 列:展示了原始的 H&E 染色的 WSIs,放大倍数为 ×40。H&E 染色是病理学中常用的染色技术,用于区分不同的细胞和组织结构。

  2. EBER 列:展示了与 H&E WSIs 对应的 EBV 编码的小 RNA(EBER)原位杂交图像。EBER 是一种用于检测 EB 病毒(与某些类型的癌症相关)的分子生物学技术。

  3. WSI Attention Map 列:展示了 WS-T2T-ViT 模型输出的注意力图,即概率图。这些图通过将模型的注意力分数转换为颜色(通常使用热图,其中红色表示高概率区域)来可视化模型认为属于 NPC 的区域。

  4. 高关注区域:标记为 a、b、c 的区域是模型识别的高关注区域,分别对应 A、B、C 三个不同的样本或图像区域。这些区域可能表示模型认为具有较高 NPC 发生概率的区域。

  5. 模型解释性:通过将 WSI Attention Map 与 EBER 结果进行比较,可以评估模型对 NPC 区域的识别能力。如果 WS-T2T-ViT 的高关注区域与 EBER 检测到的 EBV 阳性区域有较高的一致性,则说明模型具有较高的解释性和准确性。

  6. 可视化效果:热图提供了一种直观的方式来展示模型的预测结果,使得非专业人士也能理解模型的决策过程。

  7. 诊断辅助:这类可视化工具可以作为病理学家诊断的辅助,帮助他们更快地识别和关注可能的癌症区域。

  8. 性能评估:通过比较 WSI Attention Map 和 EBER 的一致性,可以对 WS-T2T-ViT 模型的性能进行评估,尤其是在敏感性和特异性方面。

图 5 通过可视化的方式,展示了 WS-T2T-ViT 模型在识别 NPC 方面的潜力,同时也提供了模型预测结果的一种解释性分析方法。这对于提高模型的可信度和在临床实践中的应用具有重要意义。


使用类激活映射生成了WSI病变的概率热图。它用较深的红色表示NPC类具有较高的概率,即WS-T2T-ViT高度关注的区域。因此,通过将注意力分数转换为RGB颜色遮罩,设置其透明度值为0.3,然后叠加在原始WSI上,得到了注意力图。

EBER是对应的EBV编码的小RNA原位杂交。WSI注意力图与EBER的比较显示,WS-T2T-ViT能够定位NPC区域以进行分类。这一结果表明WS-T2T-ViT对NPC具有很高的敏感性。

此外,正常组织区域也可以被准确检测,表明WS-T2T-ViT具有良好的特异性。如图5的最后一行的a、b和c所示,作者的框架能够很好地学习NPC区域的典型肿瘤特征。

image-20240822160249008


作者对五折交叉验证中WS-T2T-ViT的每个折叠的预测分布进行了统计计算,以研究在不同折叠中提出的框架的效果。如图6所示,结果表明,WS-T2T-ViT在五折交叉验证中获得了稳定的诊断结果。

图 6 展示了 WS-T2T-ViT 模型在五折交叉验证(five-fold cross-validation)中的预测分布情况。

每个折叠中用红色圆圈表示的癌症和用蓝色圆圈表示的正常组织显著地分布在两端。

image-20240822160525664

  1. 五折交叉验证:这是一种评估模型泛化能力的方法,将数据集分为五个部分,轮流使用其中四部分进行训练,剩余一部分用于测试。

  2. 数据点表示

    • 左侧的圆形图(circles)表示每一折中所有幻灯片的预测概率数据点。
  3. 箱形图(Box plots)

    • 右侧的箱形图提供了每一折数据分布的统计摘要。
    • 箱形图的底部和顶部边表示第一四分位数(Q1)和第三四分位数(Q3),即数据的25%和75%分位数。
    • 箱子内的水平线(horizontal bar)表示中位数(median),即数据的50%分位数。
    • 箱子内的圆圈(circle)通常表示平均值(mean)。
  4. 须(Whiskers)

    • 从箱形图两侧伸出的线(须)通常表示最小值和最大值,有时排除了异常值(outliers)。
  5. 异常值(Outliers)

    • 散点(scatter dots)表示异常值,即那些在第一四分位数与第三四分位数距离1.5倍的范围内之外的数据点。
  6. 百分位数

    • 图中的两个十字标记(crosses)分别代表1%和99%的百分位数,这进一步展示了数据的分布范围。
  7. 模型稳定性

    • 如果五折验证中的数据点分布相似,这表明模型在不同数据集上表现稳定,没有出现过拟合
  8. 性能评估

    • 通过观察箱形图的中位数、四分位数以及异常值的分布,可以评估模型在不同数据集上的一致性和可靠性。
  9. 概率分布

    • 圆形图显示了每一折中幻灯片的预测概率分布,有助于理解模型在不同数据集上的预测表现。
  10. 诊断价值

    • 这种分析有助于诊断模型在实际应用中的潜在表现,特别是在临床环境中,模型的稳定性和可靠性至关重要。

图 6 为研究者提供了模型在不同数据集上性能的直观表示,有助于评估模型的稳健性和泛化能力。这对于确保模型在实际应用中的有效性至关重要。


四、讨论

病理学是癌症诊断的基础,并且在许多医学项目中都是金标准。然而,对整个切片病理学图像的检查给病理学家带来了沉重的负担。计算机辅助诊断病理学在减少病理学家的工作量和解决人力短缺方面非常受欢迎。

在WSI上训练NPC的深度学习分类网络需要大量的优质细粒度标注数据,这是一个异常昂贵和具有挑战性的任务。作者专注于弱监督学习和分层多尺度特征的结合,以减少标注成本,同时确保作者的模型效率以克服上述限制。因此,作者开发了一个基于经典弱监督方法的新框架用于NPC分类。

经典弱监督方法是一个强化的简化,因为所有斑块都继承了切片标签。这种简化导致了标签噪声(切片标签被分配给由切片生成的所有斑块,而不仅仅是肿瘤组织),但当切片上的大部分组织是肿瘤时,性能似乎并未受到影响。

在ROC曲线中,WS-T2T-ViT与其他方法的优越性可以更直观地观察到,如图4所示。


WS-T2T-ViT在NPC分类中实现了最高的性能,AUC为0.989 [95%CI: 0.986–0.992],如图4.a所示。

image-20240822160918199

相比之下,图4.a显示,新的基于图、MIL和Transformer的算法具有较低的AUC分数。HEAT [37]的AUC为0.967 [95%CI: 0.953–0.978],DAS-MIL [44]实现了0.977 AUC [95%CI: 0.967–0.985],而MMIL-transformer [38]的AUC为0.980 [95%CI: 0.97–0.989]。经典的弱监督方法ResNet50 [35]的AUC为0.972 [95%CI: 0.952–0.987],显示了经典方法的有效性。

然而,MIL-based方法在NPC预测中表现较低,MIL [41],ATTMIL [42]和CLAM [43]的AUC分别为0.943 [95%CI: 0.91–0.972],0.963 [95%CI: 0.95–0.976]和0.96 [95%CI: 0.931–0.986]。这验证了经典弱监督方法在突变预测任务中优于MIL-based弱监督方法。


作者利用多分辨率金字塔机制来获取WSI的整体特征表示,以整合丰富的空间信息。这种机制是一种综合方法,模仿病理学家结合多分辨率信息进行诊断。WS-T2T-ViT通过结合不同分支的多分辨率信息和不同感受野的多尺度信息实现了最优性能。

如表II所示,多放大倍数机制可以提高分类性能,与单放大倍数网络相比。多分辨率金字塔可以在一定程度上提高性能,无论放大倍数如何。表III和IV进一步证明,由不同粒度级别组成的多尺度金字塔可以提供更多的特征信息。

image-20240822171839945

image-20240822171900691

作者组合了三种不同大小的感受野来构成感受野金字塔,以验证多感受野的有效性。它不仅利用了实例的特征,还利用了丰富的空间信息。表III显示,从粗粒度到细粒度的过程是可取的,而不是任意增大感受野。


作者通过消融实验研究了规范化函数和加权分配的影响。如表V和图4.d所示,sigmoid函数在AUC、准确性、精确度、敏感度、特异度和F1分数方面优于余弦函数的绝对值。

image-20240822171933122


为了进一步证明WS-T2T-ViT的泛化能力,作者在CAMELYON16公共数据集[33]上进行了比较实验。

如表VI所示,WS-T2T-ViT在AUC(0.834)、准确性(0.814)和F1分数(0.750)方面得分最高,这表明了其泛化能力和稳健性。

image-20240822172040971

此外,DAS-MIL [44],它使用了与WS-T2T-ViT类似的二元尺度融合策略,在敏感度和F1分数上分别为0.792和0.738,表现优于其他方法。这证明了双尺度融合策略的有效性。


作者的方法实现了出色的分类性能,但运行时间有限,需要在后续研究中进行改进。

在这篇文章中,作者开发了一个包含两个分支的框架,其参数数量和计算复杂度大约是单个网络的两倍。评估显示,作者的提出的框架处理具有109像素的WSI需要24.11秒。相比之下,标准ResNet50模型在40×放大倍数下处理WSI需要8.56秒。这些结果在平均10个WSI上保持一致。

造成这种时间差异的主要原因是作者模型中使用的双尺度输入,以及与ResNet50相比更复杂的Transformer模型结构。尽管增加了运行时间,但考虑到在准确性方面的显著提高,这是一个合理的权衡。

在未来的研究中,作者将融入模型的轻量级方法到作者的框架中。由于缺乏可用的公共NPC数据集,作者计划收集更多的NPC队列,以验证所提出方法的一般化和稳健能力。作者为NPC活检的肿瘤和正常组织开发了分类模型,但未提供对NPC亚型和鼻咽条件的进一步改进。这部分将在未来的工作中进行研究。


五、结论

在这篇论文中,作者提出了一种弱监督框架,名为WS-T2T-ViT,用于仅使用切片级别的注释信息解决全切片NPC图像的分类问题。WS-T2T-ViT中引入了多分辨率金字塔,以获取多分辨率的斑块集。这种多分辨率金字塔结构可以获取多分辨率的斑块集,并在多个平行分支中提供大量代表性的特征。

作者还探索了T2T模块的各种感受野架构设计,并经验性地发现了一个感受野金字塔,其分类结果具有竞争力。注意力模块被应用于整合自适应的多尺度特征信息,有效地提升了分类性能。充分的实验证明了WS-T2T-ViT在H&E染色数字组织病理学图像的NPC分类中的有效性和优越性。

所提出的方法减轻了专家注释成本的瓶颈,推动了基于Transformer的弱监督模型在计算机辅助组织病理学图像分析方面的进展。


六、数据和代码可用性

CAMELYON16的WSIs及其相应的病变注释是公开可用的,网址为:https://camelyon16.grand-challenge.org/download/。

所有代码均以Python编写,主要使用PyTorch作为深度学习包。

数据预处理代码公开可获得,网址为:https://github.com/KatherLab/preProcessing.

本研究中使用的源代码和脚本可在以下网址找到:https://github.com/Eduzwlab/WS-T2T-ViT.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值