Abstract
最近深度学习的进展在显微镜细胞计数任务上取得了令人印象深刻的结果。深度学习模型的成功通常需要足够的训练数据与人工注释,这可能是耗时且昂贵的。在本文中,我们提出了一种标注高效的细胞计数方法,将细胞计数网络注入到主动学习框架中。通过在细胞计数网络模型中设计一个多任务学习,我们利用未标记的数据进行特征表征学习,并使用深度聚类对未标记的数据进行分组。深度主动学习不是对每张训练图像中的每一个细胞进行标记,而是只建议对最不确定、最多样化、最具代表性和最罕见的图像区域进行标记。在四个广泛使用的细胞计数数据集上进行了评估,我们的细胞计数器由深度主动学习建议的一小部分训练数据训练而成,与采用全面训练或其他建议标注的先进技术相比,取得了卓越的性能。
Overview
本文属于一篇主动学习领域的论文。虽然标题不带Active Learning这个词,但是对于一些所谓Suggest Annotation、Label Effecient、Annotation Effecient的许多工作其实也做的都是主动学习,相应框架如下:
可以看到是一个典型的多任务网络。主解码器对应着图中的"Feature Decoder",用来生成一个Denstiy Map,实现细胞计数功能;辅助解码器对应着图中的"Classifcation Module",可以生成一个(聚)类别标签(
1
c
1~c
1 c)。
Uncertainty
本文提供了两种计算不确定性的思路:
- 传统的bootstraping,使用不同标注子集训练N个网络,考察样本在N个网络下的输出一致性
- epoch-wise uncertainty。该思路有点像半监督中的EMA,这里的具体做法为评估样本在网络训练的各个阶段(epoch)下输出的一致性。打个比方,如果某个样本在epoch 5, epoch 10, epoch 15下的预测结果都高度不一致,那么该样本的不确定性较大。
Diversity
Uncertainty与Diversity相结合的方式有两种。例如,先用Uncertainty选出不确定的样本,然后用Diversity去重;或者先用Diversity做聚类,然后在各簇的基础上去做Uncertainty。本文的做法属于后者。
具体来说,Classifcation Module能够实现类似聚类的效果,可以为每个样本分配一个所属的类。最终选取的时候只要选取每个类中前几个Uncertainty值最高的图进行标注即可。注意,Classifcation Module是进行有监督训练的,初始化GT通过KMeans得到,后序主动选择轮次的GT则是上一轮的预测结果。
使用单独的分类头来进行"聚类"的一个可能好处是计算起来更快,同时也能考虑到网络当前训练的表征。
Representativeness & Rarity
这一步的思想在于加入候选标签应该尽可能拉近已标注集与未标注集的特征分布,做法类似于[1]。
Semi-Supervised Learning
本文还额外用了一个Consistency Regularization来做半监督。即,对于原始图像与经过数据增强后的图像,其计数输出结果应一致。通
Ref
[1] Li, Haohan, and Zhaozheng Yin. “Attention, suggestion and annotation: A deep active learning framework for biomedical image segmentation.” International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2020.