code:GitHub - takeuchi-lab/MS-DA-MIL-CNN: Multi-scale Domain-adversarial Multiple Instance Learning CNN (CVPR2020)
Abstract
提出了一种从组织病理图像中进行肿瘤亚型分类的新方法,该方法能够在给定的全视野数字切片(WSI)中自动检测肿瘤的特异性特征。癌症亚型应参照WSI,即整个病理组织玻片的大尺寸图像(通常为40,000×40,000像素)进行分类,该玻片由癌症和非癌症部分组成。一个困难来自于在WSI中注释肿瘤区域的高成本。此外,还必须通过改变图像的放大倍数从WSI中提取全局和局部图像特征。此外,还应针对不同医院/标本的染色条件差异,稳定地检测图像特征。为了克服这些实际困难,本文将多实例、领域对抗和多尺度学习框架有效地结合起来,提出了一种新的基于CNN的癌症亚型分类方法。将该方法应用于多家医院收集的196例恶性淋巴瘤亚型的分类,其分类性能明显优于标准CNN或其他常规方法,准确率也优于标准病理学家的分类结果。
总结:提出了一种结合多实例、领域对抗和多尺度学习框架,基于CNN的方法进行肿瘤亚型分类任务(针对问题提出解决方案)。
Introduction
WSI太大无法直接输入到CNN中,所以要先进行切片。若切片有注释表明其是否是肿瘤区,则CNN就得以训练,但是注释成本太高。
无标签的三个挑战,第一:在WSI中肿瘤区和非肿瘤区是混合,需要基于肿瘤区特征来实现亚型分类。第二:染色条件的差异。第三:病理图像放大后,组织的不同特征会发生改变,在实际中需要反复改变放大倍数来找出所有特征。
idea是模拟人工操作的机制,通过有效的结合多实例学习、领域对抗规范化和多尺度学习,来解决上述的三个问题。(技术都是现有的,创新点在于结合多种现有的技术来解决特定问题)
方法应用取得一定的效果。(196例会不会太少)
贡献,一:结合了三种现有的方法提出了一种新的方法。二:应用了这一方法。三:证明了这一方法。
Preliminaries
Problem setup
一些设置:{(Xn,Yn)} 表示N个病人的数据集,Xn 表示第n个病人的WSI,Yn表示类别标签。{Dn}表示N个n维向量的集合。切片大小为224*224.
阳性类别的MSI中可能含有阴性的切片,应用多实例学习的思想:阳性类别的MSI至少包含几个阳性特征的切片,而在阴性类别的MSI中不包含任何含有阳性特征的切片。为了模仿专家在不同尺度下观察MSI,本文也会形成不同尺度的切片。
下图简要说明WSI、包、实例(补丁)和规模的概念。
Multiple instance learning (MIL)
为了解决标注问题,多实例学习(MIL)是一种弱监督学习问题,它不观察实例标签,而是观察称为包的实例组的标签。 在二元分类设置中,如果袋包含至少一个阳性实例,则将阳性标签分配给袋,而如果袋仅包含阴性实例,则将阴性标签分配给袋
Domain-adversarial neural network
为了解决染色差异的问题,这一方法由于颜色增强和颜色归一化以及它们的结合,DA方法可以忽略对分类任务没有作用的差异(本文中的染色差异)。做法是,在MIL框架内使用DA训练方法对组织病理图像进行分类,将每个患者视为一个单独的域,从而可以有效地忽略每个患者WSI的染色情况。
Multi-scale pathology image analysis
为了模拟专家反复切换放大倍数来观察不同的组织特征的行为,做法是,在MIL框架内使用多个不同尺度的多个切片。
Proposed method
本文将染色后的全切片图像送入神经网络,根据总结输出的每种包的预测类别进行亚型分类任务。
下图介绍了整体网络结构,主要包含3大模块2个阶段。
Gf:负责将输入的图像映射到Q维的特征空间h;
Gy:通过采用注意力机制的一个NN完成将包内的特征向量,映射成整个包的类别概率值; Gd:通过一个简单的NN将特征向量转换为某个域的概率输出。
stage 1:同级的DA-MIL网络,主要获得每一级图片的bag label;
stage 2:多级的DA-MIL网络,可以看到多插入了feature extractor模块。
Stage1: single-scale learning
会为每一种放大倍率下的patch计算其所属包的类别标签,注意在交叉熵损失函数中加入了对抗域迁移的正则化项,因此整个包的类别标签取决于注意力系数更大的那些示例(instance);DA正则化项的引入主要为了抑制不同染色效果带来的影响。
Stage2: multi-scale learning
第二阶段不同包中包含了不同放大倍率下采集的patch,插入的特征提取器来自于stage 1中训练得到的并生成各自倍率下的特征向量,并将所有尺度的特征向量聚合起来计算注意力权重,进而判断包的类。
Algorithm
Experiments
Dataset
来自80个机构的196例病例,包含五种典型病例,DLBCL(GCB、non-GCB)、AITL、HLMC、HLNS。
采用了分层分类的方法,先进行二分类。再进行第二层的分类。(有参考价值)
Experimental setup
略
Results
Conclusion
略