结合无监督表示学习与伪标签监督的自蒸馏方法，用于稀有疾病影像表型分类的分散感知失衡校正|文献速递-基于生成模型的数据增强与疾病监测应用

本文链接：https://blog.csdn.net/weixin_38594676/article/details/143335630

Title

题目

Hybrid unsupervised representation learning and pseudo-label supervisedself-distillation for rare disease imaging phenotype classification with dispersion-aware imbalance correction

结合无监督表示学习与伪标签监督的自蒸馏方法，用于稀有疾病影像表型分类的分散感知失衡校正

文献速递介绍

稀有疾病是一个重要的公共卫生问题，对医疗保健提出了挑战。全球罹患稀有疾病的人数估计超过 4 亿，稀有疾病约有 5000–7000 种，每年新增约 250 种（Stolk 等, 2006）。稀有疾病患者面临诊断延迟：10% 的患者需要 5–30 年才能获得最终诊断。此外，许多稀有疾病容易被误诊。因此，准确的影像表型分类以促进稀有疾病的及时诊断具有重要的临床价值。近年来，深度学习 (DL) 方法已发展为基于影像的计算机辅助诊断 (CAD) 的最新技术水平（Ker 等, 2018；Litjens 等, 2017；Shen 等, 2017）。然而，由于某种稀有疾病的患者数量有限，为训练通用 DL 分类模型收集足够的数据在实践上可能困难甚至不可行。

为应对训练样本的稀缺，提出了一种称为少样本学习 (FSL) 的机器学习范式（Li 等, 2006），并在自然图像领域取得了显著进展（Finn 等, 2017；Hsu 等, 2018；Khodadadeh 等, 2019；Shi 等, 2022；Snell 等, 2017；Vinyals 等, 2016）。在 FSL 中，从大规模基础类数据集中学习到的可泛化先验知识被用于促进有限样本的目标任务（新类）的学习。早期的 FSL 方法（Finn 等, 2017；Hsu 等, 2018；Khodadadeh 等, 2019；Snell 等, 2017；Vinyals 等, 2016）主要依赖元学习的概念，涉及复杂的框架设计和任务构建。近期，Tian 等（2020）表明，简单地在基础数据集上学习良好的表示，并在少量新类样本上拟合简单的分类器，即可取得优异的 FSL 性能。通过自蒸馏（Furlanello 等, 2018；Hinton 等, 2015）还可进一步提升性能。然而，如何在无监督基础数据集上有效地实施表示学习与自蒸馏策略仍是一个难题。

对于医学影像分类的 FSL，我们仅发现一些现有工作（Chen 等, 2022；Jiang 等, 2019；Li 等, 2020；Paul 等, 2021；Zhu 等, 2020），并且据我们所知，这些工作均依赖于基础数据集的繁重标注，给实际应用带来了很大负担。此外，大多数 FSL 方法中的元学习过程与目标任务往往是孤立的，元学习者对其最终任务的了解较少。对于自然图像，这一设置符合预训练分类器以便快速适应多样任务的普遍目标。然而，在我们考虑的场景中，已知的稀有疾病类型多为固定的，其识别构成了一个确定的任务。我们假设，通过桥接基础数据集和确定性任务，可以提升稀有疾病分类的性能。

此外，现有大部分工作仅关注模型的整体性能（如总体准确率），却忽视了类别间的性能差距。由于样本极少，可用的稀有训练数据对采样的随机性极其敏感，通常无法充分代表每个类别。例如，某一类别的少量数据可能多样性较高，而另一类别的样本则可能高度相似，导致前者表现良好而后者表现较差。这种类别间的性能失衡类似于长尾分布分类中经常遇到的不平衡问题，解决方法包括传统的重采样或重加权，以及最近提出的各种训练损失函数（Cao 等, 2019；Cui 等, 2019；Tan 等, 2021；Wang 等, 2021）。然而，这些方法是为解决类别大小分布不平衡设计的，不适用于我们的场景——在大多数 FSL 设定中，每个类别的样本数量是相同的。

在本研究中，我们提出了一种新颖的混合方法用于稀有疾病影像表型分类，结合了无监督表示学习 (URL)、伪标签监督的自蒸馏（Furlanello 等, 2018；Hinton 等, 2015）和分散感知失衡校正 (DIC)。受 FSL 表示学习快速发展的启发（Chen 等, 2019；Tian 等, 2020），我们首先基于 URL 构建了一个简单而有效的基线模型，在由常见疾病和正常对照 (CDNC) 组成的大型无标注基础数据集上使用对比学习（He 等, 2020）来学习良好的表示，并应用于稀有疾病分类。据我们所知，这是首个探索使用无监督基础数据集的少样本医学影像分类的研究。接着，我们进一步建议将稀有疾病的知识注入表示学习，充分利用 CDNC 数据以更具针对性地学习稀有疾病。具体而言，我们使用基线模型作为教师模型，为 CDNC 中属于稀有疾病的实例生成伪标签，以监督对学生模型的知识蒸馏。我们的基本原理是，CDNC 和稀有疾病常共享一些共同特征，因此我们可以通过伪标签的监督将前者的表示学习导向更好区分后者的特征。此外，我们在实验中探讨了蒸馏的设计选项，发现结合 URL 和伪标签监督分类的混合自蒸馏能实现最佳性能。最后，我们引入了分散感知失衡校正策略，考虑类内特征离散度来调整模型的预测，减小性能失衡。

Aastract

摘要

Rare diseases are characterized by low prevalence and are often chronically debilitating or life-threatening.Imaging phenotype classification of rare diseases is challenging due to the severe shortage of training examples.Few-shot learning (FSL) methods tackle this challenge by extracting generalizable prior knowledge from a largebase dataset of common diseases and normal controls and transferring the knowledge to rare diseases. Yet, mostexisting methods require the base dataset to be labeled and do not make full use of the precious examples ofrare diseases. In addition, the extremely small size of the training samples may result in inter-class performanceimbalance due to insufficient sampling of the true distributions. To this end, we propose in this work a novelhybrid approach to rare disease imaging phenotype classification, featuring three key novelties targeted at theabove drawbacks. First, we adopt the unsupervised representation learning (URL) based on self-supervisingcontrastive loss, whereby to elimin