全视野数字切片(幻灯片/WSIs)图像的数据高效和弱监督的计算病理学
一.WSIs图像介绍
- 主要应用于病理学细胞图像领域,即组织载玻片到数字格式的转换。
- 每张内存大,可以放大倍数检索。
主要存在的特点:
- 内存占比高
- 分辨率高
- 标注难度大
小结
- 论文主要概要
计算病理学的深度学习方法需要人工标注10亿像素全幻灯片图像(WSIs)或带有幻灯片级标签的大型WSIs数据集,而且通常存在较差的域适应性和可解释性。在这里,我们提出了一种可解释的弱监督深度学习方法,用于数据高效的WSI处理和学习,只需要幻灯片级标签。该方法采用基于注意力的学习方法识别诊断有价值高的子区域,对整个wsi进行准确分支,并在识别出的代表性区域上进行实例级聚类,对特征弓箭进行约束和细化,并在3个数据集的测试中,它可以用于定位的形态学特征,而不需要空间标签,并优于标准的弱监督分支算法,并且具有一定的适用性。
三.WSIs图像现存的任务和挑战
1基于完全监督学习的方法,标注难度大,需要大量的WSIs图像的标签,这是非常复杂且繁琐的一个过程。
2只采样WSI中的一个组织区域子集,在ROI或patch级进行训练,则该模型可能在测试时不能很好地泛化或提供有用的幻灯片级可解释性。
为了实现临床和研究环境中计算病理学的更广泛的适应,不需要人工ROI提取、像素/补丁级标记或采样的方法,这些方法仍然是数据高效、可解释、适应性强的,一般适用于二进制分类和多类分型问题
- 提出的方法:聚类约束注意多实例学习(CLAM)
CLAM主要为了解决以上的问题,在三个独立的分析(肾细胞癌(RCC)和非小细胞肺癌(NSCLC)亚型和淋巴结转移检测)使用公开的数据集以及独立的测试队列,表现出的效果是高效的,可以实现不同任务的高性能,同时系统的减少训练标签的数量。并且经过试验表明经过训练的模型可以直接用于活检WSIs。并有一定的适应性。
CLAM主要是一个计算病理学的框架,可以推广为多类分类的问题上。
主要的作用及原理:将基于注意力的多实例聚合扩展到一般的多类弱监督的wsi分类,而不需要任何像素级注释,roi提取或采样。首先使用具有预测训练参数的cnn编码器,实现降维可以显著提高模型的训练速度。通过使用注意力的学习,CLAM 能够生成可解释性,允许临床医生为每个幻灯片可视化每个组织区域对模型预测相对贡献和重要性。
重点讲述了没有注释的病理切片图像的学习的主要处理过程
1使用基于注意力的池化函数聚合规则
2在训练和推理的过程中,检查WSI组织区域的所有patch并进行排序(这种对注意力分数的解释反映在基于注意力的池化的幻灯片级聚合规则中)
3CLAM旨在解决一般的多类分类问题。一个CLAM模型有N个平行的注意分支,它们一起计算N个唯一的幻灯片级表示
4为了解决现有弱监督学习算法中数据效率低下的方法,利用幻灯片级的真实标签和网络预测的注意力分数来生成高参与patch和弱参与patch的伪标签.
为了模型训练的效率,先是自动分割每个幻灯片的组织区域,并将其分成许多更小的patch(eg:256x256)使用CNN进行特征提取.
总结:这类图像还是适合机器学习的问题,因为图像本身包含足够的诊断措施,如何有效的借鉴自然图像分析的方法,去减少病理图像影像标注的同时保证分析性能。
图一在癌症基因组图谱(TCGA)
在图一中(a)中展示的是组织中分割的图像,从wsi中的组织区域中提取图像patch
(b)中patch被预先训练的cnn编码为描述性特征表示,在训练和推理的过程中,将每个wsi提取的patch作为特征向量传递给CLAM模型。注意力网络给用于patch级信息聚合到幻