目录
摘要
在本文中,我们提出了一种名为BoostMIS的新型半监督学习框架,该框架结合了自适应伪标记和信息主动标注,以释放医学图像SSL模型的潜力:(1) BoostMIS可以根据当前的学习状态,自适应地利用无标签数据的聚类假设和一致性正则化。该策略可以自适应地从任务模型预测中生成一个独热的"hard"标签,以更好地训练任务模型。(2)对于置信度较低的未选择无标记图像,利用虚拟对抗扰动和模型密度感知熵,引入主动学习(AL)算法来寻找信息样本作为标注候选。这些信息丰富的候选对象随后被输入到下一个训练周期,以便更好地进行SSL标签传播。值得注意的是,自适应伪标记和信息性主动标注形成了一个相互协作的学习闭环来增强医学图像SSL。为了验证该方法的有效性,我们收集了转移性硬膜外脊髓压迫(MESCC)数据集,旨在优化MESCC诊断和分类,以改善专家转诊和治疗。我们在MESCC和另一个公共数据集covid上对BoostMIS进行了广泛的实验研究。实验结果验证了该框架对不同医学图像数据集的有效性和通用性,与现有的各种方法相比有了显著的改进。
1 Introduction
目的
注释这样的医疗数据集是一项面向专家的、昂贵且耗时的任务。大量没有标签的原始医学图像进一步加剧了这种情况。半监督学习(semi-supervised learning, SSL)超越了传统的监督学习,现有的SSL方法中伪标记[26]是一种特定的变体,其中模型预测被转换为伪标签,它经常与基于置信的阈值法一起使用,该阈值仅在分类器足够确信时保留未标记的例子。
不幸的是,这些基于自然图像的伪标签SSL方法可能无法令人满意地解决医学成像问题,这些问题可以归纳为两个关键方面。(1) 数据利用率低。医学图像(如CT、MRI)在像素层面上高度相似,使得它们很难被分类。也就是说,对于无标签的医学图像,特别是在训练过程的早期阶段,伪标签可能只能产生几个高于固定阈值的高置信度的伪标签。它存在数据利用率低的问题,即相当数量的未标记数据被忽略了。(2) 缺少信息样本。预测置信度低于预设阈值的被忽略的无标签数据可能有信息数据(例如,靠近聚类边界的样本,无标签分布空间中的代表性样本),可以进一步提高模型的性能。基于上述见解,医学图像SSL的一个有意义的优化目标是探索一种有效的学习方法,深入挖掘未标记的医学数据。
受另一种利用未标记数据的替代方法的启发,即主动学习(AL)[34],其目的是选择信息量最大的样本,以最小的标记成本使模型性能最大化。主动学习似乎是处理上述伪标记SSL方法中的问题的一个诱人的方法。如图1所示,SSL已经通过伪标签从选定的具有高置信度的无标签数据中体现出了知识。审慎的AL选择可以反映出在这种体现知识的基础上,未选择的数据中额外的信息性样本的价值。这些有信息的案例可以帮助SSL模型将额外的有价值的知识传播到未标记的数据中,从而提高未标记数据的利用率,以实现更好的SSL。事实上,AL和SSL在它们的共同目标方面是自然相关的,也就是利用未标记的样本。从机器学习的角度来看,利用相关学习方法之间的相关性和相似性可以被看作是一种归纳转移的形式。它可以引入归纳偏见[3],使组合学习方法倾向于正确的假设,从而提高性能。
贡献
总体而言,我们提出了一种新的医学图像SSL增强框架BoostMIS,该框架由以下几个部分组成:(1)医学图像任务模型。本文的任务模型(医学图像分类)首先通过带监督标签的弱增强医学图像进行训练。(2)基于一致性的自适应标签传播器。这个模块使用伪标签和一致性正则化来传播无标签数据的标签信息。由于模型在每个训练阶段的学习能力和性能不同,我们定义了一个基于当前学习状态的动态自适应阈值,以产生伪标签,更好地利用未标记的数据。然后,一致性正则化迫使模型对弱增强和强增强的数据产生相同的预测,作为正则化标准,以获得更好的泛化能力。(3)对抗性不稳定选择器。为了通过AL提高SSL,我们引入了虚拟对抗性扰动来选择位于聚类边界上的不稳定样本作为注释候选。具体来说,SSL模型在集群边界上会比较弱,甚至不一致,对抗性不稳定选择器可以通过测量样本和相应的虚拟对抗性例子之间的不一致来识别边界附近的样本。(4) 平衡不确定性选择器。为了进一步识别未标记池中的信息案例,我们利用SSL模型的密度感知熵,均匀地选择每个预测类中具有高不确定性的样本作为补充集,以平衡后续训练。逆向不稳定性样本和平衡不确定性样本的联合体将成为最终的注释候选者,以扩大标记池。总之,我们提出的四个模块循环工作,共同进步,促进医学图像SSL的发展。
- 据我们所知,我们是第一个将AL纳入SSL的公司,以释放未标记数据的潜力,以便更好地进行医学图像分析。
- 我们提出了自适应伪标记和信息主动标注,合理利用未标记医学图像,形成闭环结构来提高医学图像的SSL。
- 我们收集了转移性硬膜外脊髓压迫(MESCC)数据集,用于方法开发和广泛评估,目的是优化MESCC诊断和分类,以改善专家转诊和治疗。
- 在MESCC数据集和公共医疗数据集covid[46]上,所提出的BoostMIS的一致性优势得到了验证,该数据集的性能大大优于现有的SSL方法。
3 Method
3.1 公式化符号
训练样本池X,标记Y,无标记的样本U。目标是用成对的(X,Y)和无标记的样本U来训练提出的半监督学习框架BoostMIS。
T是SSL的分类任务模型,S是通过AL标注候选样本。
在SSL方面,T(·;θ)由医学图像任务模型中带有弱增强的标记样本X训练,并在一致性的自适应标签传播器中将标记信息传播到无标记样本U。选择后验概率高于自适应阈值的无标签样本作为训练样本Us,并带有伪标签Ps,结合X来训练T(-; θ),并采用增强感知的一致性正则化。
在AL方面,一旦SSL训练过程结束,我们将未选择的样本Uu与扰动送入T(-; θ),在对抗性不稳定选择器中产生对抗性样本。之后,我们选择出未选择的样本Uu和其对抗性样本之间KL散度最大的前K个样本。
为了进一步识别未标记池中的信息案例,我们使用T(-; θ)的熵来均匀地选择每个预测类中具有高不确定性的前K个样本作为补充集,以平衡后续的训练。
由平行选择的Na个样本组成的最终候选样本C(由于候选样本的交集,小于等于2K)被提供给人类专家进行注释。因此,标记池和未标记池的大小将被更新,以执行更好的SSL。该循环将被重复,直到任务模型的性能满足要求或注释预算用完为止。
3.2 医学图像任务模型
ResNet50作为backbone,给定若增强的标记的数据X(只使用翻转和移位数据增强)和他们相关的标记Y,loss是交叉熵损失。
3.3 基于一致性的自适应标签传播器
受FixMatch[38]的启发,BoostMIS中的SSL标签传播器是两种方法的结合:伪标签和一致性正则化。当任务模型的置信度高于定义的阈值时,未标记的弱增强图像的伪标签是根据任务模型的预测来计算的。而对于强增强的图像,伪标签是根据任务模型的输出来执行的。
自适应阈值Et 可以在不同的学习状态下进行动态调整,更好地利用未标记数据。自适应阈值可以从下述公式得到:
我们认为,SSL模型的学习效果可以通过预测高于阈值的样本数量来反映。Et 可以动态的适应当前的学习状态和AL信息选择的数量,以鼓励更好地利用无标记数据(预测样本较少的类),直到迭代步长超过Tmax。
因此,我们将无标记数据集U输入到任务模型中。当他们的预测置信度高于自适应阈值时,所选择的预测样本Us转换成一个独热伪标签Ps,然后,我们引入了增强意识的一致性正则化,它计算了模型对同一图像的强增强的预测。该模型被训练为强制其对强增强图像的预测,以通过交叉熵损失来匹配伪标签。
3.4 对抗性不稳定选择器
在未选择的数据中选择有信息的样本进行进一步的标注更有价值,这可以帮助SSL模型平滑决策边界,将有代表性的标签信息传播到未标注的数据中。我们把未选择的样本Uu分成两类:不稳定、不确定。我们的目标是通过引入对抗不稳定性选择器(AUS)来寻找不稳定样本。AUS通过计算对样本的预测和相应的虚拟对抗样本之间的不一致性来估计模型对样本的预测的稳定性。具体来说,给一个未选择的样本uu,其表示ru从任务模型的最后一层提取,预测为pu。把ru和pu同时放入生成器得到虚拟对抗扰动rp,然后看图
但是rp不能用6计算,因为Div的相对于r的梯度在r=0时总是0。因此我们用二阶泰勒展开逼近rp
rp确定后我们可以通过KL散度来估计未标记的样本ru的方差
最后,AUS从不稳定样本中选取方差最大的top-K样本作为AL标注候选的初始召回集。这些不稳定的样本通常位于集群边界,可以平滑SSL模型的决策边界,从而输出更正确的预测。
3.5 平衡不确定性选择器
除了不稳定的样本,在未选择的数据中还有大量不确定的样本,这些样本仍然持有较低的预测置信度,对任务模型也有参考价值。为了进一步找到不确定的样本来提高SSL模型,我们引入了平衡不确定性选择器(BUS),它均匀地选择每个预测类别中具有高不确定性的未选择样本。这些被选中的样本可以大大降低模型的不确定性,平衡后续的SSL。在实践中,我们使用任务模型的熵来估计样本的不确定性,然后均匀地选择具有最大熵的前K个样本进行人工注释。对于无标签样本uu的熵Ent可以被如下公式计算:
上述基于熵的公式只估计了每个样本的信息确定性,没有考虑到样本之间的分布关系。因此,该度量可能会遇到在分布空间中选择一些离群值或不具代表性的样本的风险。为了缓解这个问题,我们用一个代表性因子对不确定性度量进行重新加权,并明确地考虑数据分布。我们将这种密度感知的不确定性表示为
最后,不稳定和不确定样本的结合构成了最终的注释候选者以扩大标记池,这带来了信息丰富的案例,以改善后续的SSL。
3.6 训练算法
(1)一方面,标签传播器可以通过自适应伪标签和增强意识的一致性正则化,将监督的标签信息传播到无标签的样本。这种训练策略可以将提供额外明确训练信号的伪标签样本和初始标签样本混合起来,以提高任务模型的性能。(2)另一方面,对抗性不稳定选择器和平衡的不确定性选择器让神谕者注释具有最大不一致性和最高不确定性的样本,这可以帮助SSL模型包括有信息的样本,以便更好地进行标签传播。总之,所提出的BoostMIS让SSL和AL模型协同工作,自然形成一个闭环,以提高医学图像的SSL。
4 实验
(1)BoostMIS (-AS)使用一个固定的置信阈值(α+β)来传播标签信息到未标签数据。(2) BoostMIS (-BUS)在选择未选择的医学图像时,只考虑了AL标注的不一致性。(3) BoostMIS (-VAR)选择无对抗不稳定性选择器的AL标注候选。(4) SSL+RS是BoostMIS的简化版本,它由BoostMIS中的SSL模型组成,采用随机抽样策。
4.2 实验结果
表1列出了我们的框架和基线在MESCC数据集的测试集上的总体定量结果。从该表中我们可以看到,我们的模型在15%到30%的标签数据中一直取得了优异的性能。特别是在30%的标记数据下,BoostMIS在MESCC医学图像分类任务中的准确率超过了其他基线,达到了2.88% 10.21%(两个等级)和2.70% 18.31%(六个等级)的巨大优势。值得注意的是,除了R-Labeling,几乎所有基于AL的SSL模型都可以通过采用适当的注释策略来提高模型性能。这一现象是合理的,因为随机选择的注释候选人对SSL模型来说信息量不够大。此外,与纯粹的SSL模型Fixmatch相比,BoostMIS带来了10%的注释成本(500个样本)的巨大减少,达到了类似的性能(BoostMIS:91.46%,Fixmatch:91.09%)。换句话说,受益于对抗性不稳定选择器(AUS)和平衡不确定性选择器(BUS),BoostMIS可以为任务模型提供更多的信息样本,而注释成本更低,性能提升显著。
我们还在表2中报告了比较模型的宏观精度、宏观F1得分和宏观召回率。我们的BoostMIS再次在所有指标方面取得了最好的成绩。值得注意的是,与表1中的全球精确度相比,基于AL的SSL模型的结果未能保持一致的优势。例如,基于AL的SSL基线的Macro Recall分数就不如FixMatch。这是因为那些AL模型倾向于选择b0/低级别的注释候选人,这在MESCC数据集中的数据比例最大。没有平衡的监督标签信息的不平衡注解候选者可能会导致对其他类数据的错误分类。同时,BoostMIS中的平衡不确定性选择器会统一选择每个预测类中具有高不确定性的样本,这有助于持续保持显著的结果。
4.3 深度分析
Q1:BoostMIS中各个组件对增强医学图像SSL的贡献是什么?
我们进行了消融研究来说明表3中每个成分的有效性。对比BoostMIS和BoostMIS(-AT) (Row 2 vs Row 4),自适应阈值显著提高了0.84%和1.40%的准确性。第3行和第4行结果分别显示了AL模块中AUS(不稳定采样)和BUS(不确定采样)的精度提高。同时,将BoostMIS中的SSL模块与AL随机抽样相结合的SSL+RS (Row 1)性能最差。这进一步验证了我们的AL信息选择的优越性。结果表明,引入的两种AL选择策略能够以一种互惠的方式增强医学图像SSL
Q2:如何确定初始标记池的最佳起始大小?
我们研究了AS的超参数α和β对SSL能力的影响。图5显示了在MESCC数据集上不同超参数的分类错误率和准确性。我们可以观察到,在两级分类和六级分类中,生成的伪标签的最低错误率为4.83%和8.26%。该图还表明,α和β的最佳选择分别为0.9和0.05左右,增加或减少这些值都会导致性能下降。此外,表4总结了训练阶段正确的伪标签的数量,我们的方法明显提高了未标记数据的利用率。与伪标签SSL方法FixMatch相比,我们的BoostMIS在两级和六级的无标签数据利用率上分别超过了它4.31%和8.17%。这进一步验证了BoostMIS的优越性,它可以释放出无标签数据的潜力,以获得更好的医学图像SSL。