82、全切片图像上基于可微缩放的多实例学习

o1p2q3r

于 2025-10-01 13:26:35 发布

阅读量55

点赞数

CC 4.0 BY-SA版权

分类专栏： ECCV 2022精华解读文章标签： ZoomMIL 多实例学习全切片图像

本文链接：https://blog.csdn.net/o1p2q3r/article/details/152548223

ECCV 2022精华解读专栏收录该内容

85 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

全切片图像上基于可微缩放的多实例学习

1. 数据集信息

在20倍放大倍数下，CRC、BRIGHT和CAMELYON16数据集的组织区域内（像素，补丁）平均数量分别为（2.2728亿像素，3468个）、（10.4亿像素，15872个）和（6.4828亿像素，9892个）。

2. 实现细节

预处理 ：
1. 使用高斯组织检测器检测每个全切片图像（WSI）的组织区域。
2. 在所有考虑的放大倍数下，将组织划分为256×256的补丁。
3. 确保每个高倍放大补丁与相应的低倍放大补丁相关联。
4. 使用在ImageNet上预训练的ResNet - 50对补丁进行编码，并在第三个残差块后应用自适应平均池化以获得1024维嵌入。
ZoomMIL模块 ：
- 门控注意力模块由三个2层多层感知器（MLP）组成，前两个分别后跟双曲正切和Sigmoid激活函数。
- 分类器是一个带有ReLU激活函数的2层MLP。
- 在所有全连接层中使用0.25的丢弃概率。
整体实现 ：
- 所有方法都在PyTorch中实现，并在单个NVIDIA A100 GPU上运行。
- ZoomMIL在CRC、BRIGHT和CAMELYON16数据集上分别使用K = {16, 12, 300}，更高效的变体ZoomMIL - Eff在CRC和BRIGHT上分别使用K = {12, 8}。
- 使用Adam优化器，学习率为0.0001，并使用高原调度器（耐心 = 5个周期，衰减率 = 0.8）。
- 实验运行100个周期，批量大小为1。
- 对于CRC和CAMELYON16，保存验证损失最佳的模型进行测试。在BRIGHT上，使用最佳验证加权F1分数进行模型选择。

3. 对比基线方法

与以下最先进的多实例学习（MIL）方法进行比较：
- ABMIL：使用门控注意力池化。
- CLAM：ABMIL的变体，还包括实例级聚类损失。
- TransMIL：使用基于变压器的池化来建模实例级依赖关系。
- SparseConvMIL：选择随机补丁子集并使用稀疏卷积进行池化。
- MSMIL和DSMIL：多尺度方法，但计算效率低于ZoomMIL。
- MaxMIL和MeanMIL：基于最大池化和平均池化的传统MIL方法。

4. 实验结果

以下是不同数据集上的性能和效率测量结果：
| 数据集 | 方法 | 加权F1(%) | 准确率(%) | TFLOPs | 时间(s) |
| — | — | — | — | — | — |
| CRC | MaxMIL (20×) | 82.2±0.9 | 82.2±1.2 | 0.96 | 0.13 |
| CRC | MeanMIL (20×) | 84.3±0.8 | 84.1±1.2 | 0.96 | 0.12 |
| CRC | SparseConvMIL (20×) | 89.6±1.3 | 89.6±0.9 | 0.96 | 0.13 |
| CRC | ABMIL (20×) | 90.1±0.6 | 90.2±0.5 | 13.63 | 4.85 |
| CRC | CLAM - SB (20×) | 90.9±0.6 | 90.9±0.5 | 13.63 | 4.85 |
| CRC | TransMIL (20×) | 89.8±1.1 | 90.2±0.9 | 13.63 | 4.85 |
| CRC | MSMIL (5× + 10× + 20×) | 84.6±0.1 | 84.9±0.2 | 17.88 | 6.37 |
| CRC | DSMIL (5× + 10× + 20×) | 91.1 ± 1.1 | 91.2 ± 1.1 | 17.94 | 6.37 |
| CRC | ZoomMIL - Eff (5× →10×) | 90.3±1.3 | 90.3±1.3 | 1.06 | 0.38 |
| CRC | ZoomMIL(5× →10× →20×) | 92.0 ± 0.6 | 92.1 ± 0.7 | 1.40 | 0.50 |
| BRIGHT | MaxMIL (10×) | 46.8±3.7 | 51.3±1.7 | 0.96 | 0.13 |
| BRIGHT | MeanMIL (10×) | 44.9±2.8 | 47.1±0.1 | 0.96 | 0.12 |
| BRIGHT | SparseConvMIL (10×) | 53.2±3.6 | 55.3±3.7 | 0.96 | 0.13 |
| BRIGHT | ABMIL (10×) | 63.5±2.7 | 65.5±1.9 | 16.45 | 5.86 |
| BRIGHT | CLAM - SB (10×) | 63.1±1.7 | 64.3±1.7 | 16.45 | 5.86 |
| BRIGHT | TransMIL (10×) | 65.5±2.8 | 66.0±2.7 | 16.46 | 5.86 |
| BRIGHT | MSMIL (1.25× + 2.5× + 10×) | 61.7±0.6 | 62.5±1.1 | 21.59 | 7.69 |
| BRIGHT | DSMIL (1.25× + 2.5× + 10×) | 63.1±1.6 | 64.0±1.1 | 21.66 | 7.69 |
| BRIGHT | ZoomMIL - Eff (1.25× →2.5×) | 66.0 ± 1.9 | 66.5 ± 1.5 | 0.40 | 0.14 |
| BRIGHT | ZoomMIL(1.25× →2.5× →10×) | 68.3 ± 1.1 | 69.3 ± 1.0 | 1.29 | 0.46 |
| CAMELYON16 | MaxMIL(20×) | 64.0±3.0 | 67.1±0.9 | 0.96 | 0.13 |
| CAMELYON16 | MeanMIL (20×) | 63.5±1.1 | 65.9±1.6 | 0.96 | 0.12 |
| CAMELYON16 | SparseConvMIL (20×) | 67.7±0.6 | 68.7±0.1 | 0.96 | 0.13 |
| CAMELYON16 | ABMIL (20×) | 83.2±1.7 | 84.0±1.3 | 39.12 | 13.92 |
| CAMELYON16 | CLAM - SB (20×) | 83.3±1.5 | 84.0±1.3 | 39.12 | 13.92 |
| CAMELYON16 | TransMIL (20×) | 83.6 ± 2.6 | 85.3 ± 1.9 | 39.12 | 13.92 |
| CAMELYON16 | MSMIL (10× + 20×) | 81.4±1.1 | 82.4±1.0 | 48.87 | 17.41 |
| CAMELYON16 | DSMIL (10× + 20×) | 78.5±0.42 | 79.6±0.3 | 48.95 | 17.41 |
| CAMELYON16 | ZoomMIL(10× →20×) | 83.3 ± 0.3 | 84.2 ± 0.4 | 14.94 | 5.32 |

从这些结果可以看出：
- 分类性能 ：
- 在CRC数据集上，ZoomMIL在加权F1分数上比CLAM - SB和TransMIL分别高出1.1%和2.2%，ZoomMIL - Eff也取得了相当的性能。
- 在BRIGHT数据集上，ZoomMIL取得了最佳性能，在加权F1分数上比MSMIL高6.6%，比CLAM - SB和DSMIL高5.2%，比TransMIL高2.8%，ZoomMIL - Eff取得了第二好的结果。
- 在CAMELYON16数据集上，ZoomMIL的平均准确率比TransMIL低1.1%，但仅导致1 - 2个测试WSI分类错误。
- 效率方面 ：
- 在CRC上，ZoomMIL比CLAM - SB和TransMIL使用的FLOPs和时间少约10倍，比MSMIL和DSMIL多减少超过12倍。
- 在BRIGHT上，ZoomMIL - Eff比MSMIL和DSMIL减少超过50倍的计算需求，比CLAM - SB和TransMIL减少超过40倍。
- 在CAMELYON16上，ZoomMIL使用的FLOPs约为MSMIL、DSMIL、CLAM - SB和TransMIL的1/3。

以下是ZoomMIL在BRIGHT数据集上的吞吐量与分类准确率的关系图示意（此处无法实际展示图，仅文字说明）：
在单核心CPU和NVIDIA A - 100 GPU上分别展示了不同MIL方法的吞吐量与分类准确率的关系，标记的效率前沿曲线表示不同最小吞吐量要求下的最佳可能准确率。值得注意的是，在单核心CPU上运行的ZoomMIL - Eff（约300图像/小时）提供了与在先进NVIDIA A100 GPU上运行的MSMIL、DSMIL、CLAM - SB和TransMIL（约500 - 600图像/小时）相似的吞吐量。

5. 可解释性分析

通过定性分析ZoomMIL的补丁级注意力图来进行解释：
- 在BRIGHT的癌症WSI上，ZoomMIL正确关注癌症区域，对癌前区域关注度较低，对非癌区域关注度最低。
- 在CAMELYON16的转移WSI上，对于不同大小的转移区域，ZoomMIL能给予高关注，但对于极小的转移灶，关注度低，可能导致误分类。不过，对于有微小转移的情况，相对较高的注意力会赋予组织周边，这与转移通常出现在淋巴结的被膜下区域的事实相符。

6. 消融实验

对ZoomMIL - Eff的不同模块进行消融实验，结果如下：
| 实验类型 | 方法 | 加权F1(%) | 准确率(%) |
| — | — | — | — |
| 补丁选择 | Random K @ 1.25× | 61.0 | 61.0 |
| 补丁选择 | Random 4K @ 2.5× | 59.6 | 60.0 |
| 补丁选择 | NonDiff - TopK K @ 1.25× | 59.9 | 60.0 |
| 补丁选择 | Diff - TopK K @ 1.25× (Ours) | 68.1 | 68.0 |
| 注意力机制 | Single GA @ 1.25× | 59.6 | 61.0 |
| 注意力机制 | DGA @ 1.25× (Ours) | 68.1 | 68.0 |
| 特征聚合 | Features @2.5× | 62.7 | 63.5 |
| 特征聚合 | Features @1.25× || @2.5× | 64.9 | 65.0 |
| 特征聚合 | Features @1.25× + @2.5× (Ours) | 68.1 | 68.0 |

从消融实验结果可以得出：
- 可微补丁选择 ：基于注意力的可微补丁选择（Diff - TopK）优于随机选择和非可微Top - K选择。
- 双门控注意力 ：双门控注意力（DGA）比单门控注意力在补丁选择和幻灯片表示上更优，从而提高了整体分类性能。
- 特征聚合 ：基于残差学习的求和池化比仅使用最高放大倍数特征和特征拼接更能有效利用两个放大倍数的互补性，显著提高了性能。

ZoomMIL是一种用于WSI分类的新颖框架，在推理时比以前的最先进方法快一个数量级以上，同时实现了相当或更好的准确性。其可微缩放的概念允许模型学习哪些补丁是有信息的并值得放大。通过在三个不同数据集上的广泛定量和定性评估以及详细的消融实验，证明了模型各组件的重要性。未来可以进一步研究ZoomMIL的注意力图，并将其与病理学家的视觉注意力进行比较。

全切片图像上基于可微缩放的多实例学习

7. 方法优势总结

8. 应用场景及潜力

ZoomMIL的特性使其在多个应用场景中具有巨大潜力：
- 临床诊断 ：其高效的计算性能和良好的分类准确性，能够在临床环境中快速处理大量的WSI，辅助病理学家进行疾病诊断，提高诊断效率和准确性。例如，在乳腺癌、结直肠癌等疾病的诊断中，可以快速判断是否存在癌症或转移情况。
- 癌症研究 ：可以用于癌症的亚型分类、预后预测等研究。通过对WSI的分析，挖掘更多的病理信息，为癌症的研究提供支持。
- 远程医疗 ：在医疗资源相对匮乏的地区，借助ZoomMIL的低计算需求特性，可以在有限的IT基础设施上实现WSI的分析，为远程医疗提供可能。

9. 未来研究方向

尽管ZoomMIL已经取得了不错的成果，但仍有一些值得深入研究的方向：
- 注意力图研究 ：进一步深入研究ZoomMIL的注意力图，了解其与病理学家视觉注意力的差异和相似之处，优化模型的决策过程，提高模型的可解释性和准确性。
- 模型优化 ：探索更有效的模块设计和参数调整方法，进一步提高模型的性能和效率，减少计算资源的消耗。
- 多模态融合 ：将WSI数据与其他模态的数据（如基因数据、临床信息等）进行融合，提高疾病诊断和预测的准确性。

以下是ZoomMIL未来研究方向的mermaid流程图：

graph LR
    A[ZoomMIL] --> B[注意力图研究]
    A --> C[模型优化]
    A --> D[多模态融合]
    B --> B1[对比病理学家注意力]
    B --> B2[优化决策过程]
    C --> C1[改进模块设计]
    C --> C2[调整参数]
    D --> D1[融合基因数据]
    D --> D2[融合临床信息]

10. 总结

ZoomMIL是一种用于WSI分类的创新框架，具有高效、准确、可解释等优点。通过对不同数据集的实验验证和消融实验分析，证明了其各个模块的有效性。在临床诊断、癌症研究和远程医疗等领域具有广阔的应用前景。未来，通过进一步的研究和优化，ZoomMIL有望在医学图像分析领域发挥更大的作用，为疾病的诊断和治疗提供更有力的支持。

综上所述，ZoomMIL在全切片图像分类任务中展现出了强大的竞争力，其可微缩放的概念为模型的性能提升和效率优化提供了新的思路。随着研究的不断深入，相信ZoomMIL将为医学领域带来更多的突破和创新。