【论文笔记】BoMD: Bag of Multi-label Descriptors for Noisy Chest X-ray Classification

Abstract

  • 深度学习方法(DNN)(因为大规模的人工标记的干净数据集,在医学影像分类有很高的正确率,但是人工成本太高)因此,新的医学影像分类问题可能需要依赖从放射报告中提取的机器生成(NLP)的噪声标签
  • CXR 数据集大多是多标签

在本文中提出了一种专为有噪声多标签CXR 学习设计的新方法,该方法可检测并平滑地重新标记数据集中的有噪声样本,以用于普通多标签分类器的训练

所提出的方法优化了多标签描述符包(BoMD),以提高它们与语言模型根据多标签图像注释生成的语义描述符的相似性。

Introduction

多类 LNL 方法的比较

  • 目前LNL(learning with noisy label)方法

    • clean the label noise
    • robustify loss functions
    • estimate label transition matrices
    • smooth training labels
    • use graphs to explore the latent structure of data
      这些方法都是针对有噪声的多类问题而设计的,不容易扩展到有噪声的多标签学习
  • 固有的正负不平衡问题???(不知道这是什么意思)
    这一问题可能会导致基于样本选择的方法选择极度不平衡的干净样本集,其中大部分已识别的干净样本属于 "无发现 "类。此外,它还会妨碍对噪声类或中间类的后验概率进行准确估计。

  • 目前比较好的处理噪声多标签的方法:NVUM:它面临着多重标签早期收敛模式不同的挑战,这可能会导致特定标签噪声条件下的性能不佳

  • q:能否利用训练标签的语义信息来帮助检测和修正有噪声的多标签样本?2阶段的BoMD

    • 第一阶段:对特征提取器进行训练,通过提高其与语言模型语义嵌入的相似度,生成一袋多标签图像描述符
    • 在第二阶段:引入了一种新颖的图结构,每幅图像都由一个由第一阶段学习到的多标签图像描述符构建的子图来表示,从而平滑地重新标记有噪声的多标签图像。
contributions
  1. 一种新颖的两阶段学习方法,可平滑地重新标记有噪声的多标签 CXR 图像数据集,然后可用于训练通用的多标签分类器
  2. 一种新的多标签图像描述符袋学习方法,可利用语言模型中的语义信息来表示多标签图像并检测噪声样本
  3. 一种新的图结构,用于平滑地重新标记有噪声的多标签图像,每幅图像都由学习到的多标签图像描述符的子图来表示,这种子图可以捕捉细粒度的图像关系
  4. 首次对结合了 PadChest 和 Chest Xray 14数据集的噪声多标签方法进行了系统评估

2. Related Works

2.1. CXR multi-label classification

  • a new cross-attention network to extract meaningful representations
  • propose a weakly-supervised method to diagnose and localise diseases
    虽然这些方法显示出了良好的效果,但通过解决 CXR 数据集的多标签学习噪声问题,仍有改进的潜力。

2.2. Learning with Noisy Labels

Noise-cleaning methods

Noisy-cleaning

  • 噪声清理方法侧重于检测噪声样本

    • 依靠小损失技巧(small-loss trick)(即干净样本损失小)来共同教两个模型
    • 切换学习率来检测预测不稳定的噪声样本
    • 丢弃了标签与 KNN 分类器预测不一致的样本
  • 噪声清理方法可与半监督学习相结合,对损坏数据进行检测和修正

    • 移除了被归类为噪声样本的标签,并运行了一种半监督学习方法
    • 验证图像特征和代表类别的特征向量的一致性来检测噪声样本。
  • 总结:

    • 噪声清理方法一般采用两个发散网络来减少确认偏差,这大大增加了计算复杂度。
    • 目前还不清楚这些方法能否处理有噪声的多标签问题,因为它们一般无法捕捉细粒度的图像关系。(看不懂??)
Noise-robust methods

Noise-robust
降噪方法依靠稳健的损失函数来平衡训练过程中标签噪声造成的过拟合效应

  • 交叉熵(CE)损失的对称特性。
  • 平均无绝对误差(MAE)和交叉熵(CE)损失结合起来,以实现收敛性和泛化之间的良好平衡。
  • 通过应用一个简单的归一化项,任何损失函数对标签噪声都具有鲁棒性。
  • 提出了一种基于 MAE 和 CE 损失之间软过渡的稳健噪声 JensenShannon divergence (JSD) 损失

尽管这些方法可以减少过拟合效应,但它们也倾向于对训练数据拟合不足。
早期学习正则化(ELR)部分地解决了这一问题,它提出了一个正则化项限制来自有损坏标签样本的梯度。非易失性无偏差记忆(NVUM)将 ELR 扩展到有噪声的多标签问题。尽管 ELR 和 NVUM 很有前途,但正如实验所示,ELR 和 NVUM 面临着多标签早期收敛模式不同的挑战,这可能导致特定标签噪声条件下的性能不佳。

Transition matrix methods

Transition matrix
转换矩阵方法可以估算干净标签和噪声标签之间的转换概率

  • 提出了一个噪声适应层来估计标签转换
  • 使用中间类和因式分解矩阵估计过渡矩阵
  • 估计了复杂噪声条件下与部分相关的过渡矩阵
  • 提出了一种基于过渡矩阵的噪声预测校准方法,以减少噪声预测与基于 KNN 预测的干净标签之间的差距。
Label-smoothing methods

标签平滑方法依赖于修改样本标签分布

  • 提出了在线标签平滑(OLS)方法,通过考虑多个标签之间的关系生成软标签
  • 标签平滑法的优势在高标签噪声环境下会消失,因为标签平滑法往往会使估计的标签分类过度平滑,因此他们提出了广义标签平滑法(GLS),该方法使用负平滑值来处理较高的噪声率。

一般来说,标签平滑方法会对训练数据拟合不足,因为它们倾向于放弃对硬性干净标签样本的优化。

Graph-based methods

Graph-based
基于图的方法利用特征表示的鲁棒性来区分干净样本和噪声样本,并对训练过程进行正则化

  • 探索了数据在特征空间中的拓扑特性,通过假定干净的数据在该特征空间中聚集在一起,而损坏的数据是孤立的,来进行噪声清理。研究了数据的几何结构,以建立预测置信度模型并过滤掉噪声样本。
  • 引入了一个正则化项,迫使样本与其相邻样本具有相似的预测结果。

这些基于图的方法都是为单标签分类设计的,因此不能轻易地适用于多标签数据集。此外,使用多标签数据构建图也是这些方法面临的一个问题。

Multi-label Noisy label methods

Multi-label Noisy label
与多类问题中的样本噪声不同,在多标签情况下,每个样本的每个标签都可能受到破坏,这就给标签噪声的选择和校正带来了问题;此外,类不平衡和语义分歧也会加剧对多数类的过拟合问题。

  • 利用标签依赖关系来处理噪声标签,并使用词嵌入来执行基于上下文的正则化,以避免过拟合。
  • 考虑了标签之间的相关性(即 "鱼 "和 "水 "与 "鱼 "和 "天空 "相比具有更强的相关性)来估计过渡矩阵。
  • 通过估计候选标签集中可信标签的置信度来减轻标签噪声的负面影响。
    与之前的方法不同,我们考虑使用标签语义信息和标签平滑技术来捕捉更精细的图像关系,防止分类器对任何一个噪声标签过于自信。

2.3. Bag of Words

我们采用 BoW 概念,但不是提取局部视觉描述符(如 SIFT),而是训练 DNN用一袋全局视觉描述符来表示每幅图像

3.Method

3.1. Bag of Multi-label Descriptors (BoMD)

其灵感来自于这样一个观察结果:
在特征空间中,有噪声标签的样本往往是被干净标签样本包围的离群值。因此,每个样本的标签都应与相邻样本的标签保持一致===>新方法:利用邻近地区的估计标签分布对有噪声的多标签图像重新贴标。

提出的BoMD 有两个阶段(如下图):
BoMD

  1. 图像描述学习,将训练图像转换为视觉描述符包,视觉描述符包位于语义空间 Z ⊂ RZ 中,由图像标签计算出的单词嵌入填充;
  2. 构建图以平滑地重新标记有噪声的多标签图像,其中每幅图像都由学习到的视觉描述符包构建的子图表示,该子图可捕捉细粒度的图像关系。然后,这个平滑重新标记的数据集将用于训练多标签分类器。

3.2. Multi-label Image Description (MID)

MID
受 BoW 的启发,我们的 MID(如上图)通过将图像的多个标签与一袋全局视觉描述符相关联来表示图像。MID 使用一组视觉描述符将图像投射到 BERT 的语义空间中,这些视觉描述符经过了优化,以提高它们与 BERT 模型从图像的多标签注释中生成的语义描述符的相似性

  • 图像 x 的 MID 用 V = fθ(x) 提取,其中 V = {v(m)}m=1M 表示 BERT 语义空间中的 M2 个视觉描述符,即 v(m) ∈ Z
  • BERT语言模型以词嵌入的形式产生语义描述符,对于c∈{1, …, |Y|},w© = f y ~BERT ©~,形成W = {w©}|Y| c=1,其中w© ∈ Z,Z与fθ(.)的空间相同。更具体地说,MID 的训练方法是:
    MID训练公式
    • wi是一个归一化值,根据正负标签的数量控制排名权重(I(.)代表一个指标函数)
    • 超参数 β 对正则表达式进行加权
      公式参数补充
      其中,⟨.,.⟩代表点积算子,p, n∈{1, …, |Y|}分别表示正词嵌入(即 w§,其中 yi§ = 1)和负词嵌入(即 w(n),其中 yi(n) = 0)的索引,Vi = fθ(xi),以及
      公式参数补充
  • Z 是 Z 的维数
  • v(m) 表示 Vi 中的 MID 平均值。
  • (2)中的ℓmid(.)迫使点积⟨v, w§⟩高于⟨v, w(n)⟩,这意味着视觉描述符与正标签嵌入比与负标签嵌入更相似。直观地说,这种损失会促使语义相似的图像描述符聚集在相关的语义描述符周围,这将有利于我们基于图的平滑重贴标签。

3.3. Graph Construction and Smooth Re-labelling

考虑到学习到的视觉描述符很可能更接近语义空间中的干净标签,我们在对噪声训练样本进行检测时,首先对图像 xi 的标签进行排序(按相似度降序排列)(根据与来自标签的词嵌入的内积),如下所示:
排序
其中,ri(1) ∈ {1, …, |Y|}为排名最高的标签,ri(|Y|) ∈ {1, …, |Y|}为排名最低的标签。那么,对于所有正标签 p∈Pi 和负标签 n∈Ni 而言,ri§ < ri(n) 的样本即为干净样本,其中 Pi = {c|yi© = 1},Ni = {c|yi© = 0};否则,样本被归类为噪声样本

BoMD 的第二阶段是利用使用 MID 视觉描述符构建的样本图对噪声样本进行重新标注。
该图是用 Vi = fθ(xi) 的 M 个节点 {vi(m)}m=1M 表示每幅训练图像 xi,其中第 i 幅图像的第 m 个描述符与第 j 幅图像的第 n 个描述符之间的边权重定义为 e(vi(m), vj(n)) = 1/∥vi(m) - vj(n)∥2 。这意味着图中的节点集由 {vi(m)}|D|,M i=1,m=1 和边 {e(vi(m), vj(n))}|D|,M i,j=1,m,n=1 表示。

重新标记的基础是利用图节点找到与图像 i 最近的 K 个节点:
K(Vi)
其中,K(Vi) 包含边缘权重最大的 K 个节点的唯一图像索引。接下来,对于所有被识别为有噪声的样本,我们用 ̃ yi = fSR(yi, ̄ yi) 更新其标签,其定义为
公式补充

  • 1|Y|表示一个大小为 |Y|(均匀分布)的向量,以防止重新标记时对任何一个标签过于自信
  • ⊙ 是元素向向量乘法
  • m = I((yi + ̄ yi) > 0) 是一个二进制掩码,用于过滤掉高置信度的负标签(I(.)是指示函数),以减轻过度平滑问题

3.4. Training and Testing

我们建立一个新的训练集 ̃ D = {(xi, ̃ yi)|(xi, yi) ∈ D}|D||i=1,其中如果样本 (xi, yi) 是由公式 (4) 得出的干净样本,则̃ yi = yi,如果样本是噪声样本,则由公式 (6) 计算得出}。
然后,我们通过最小化̃ D 上的 BCE 损失来训练正则分类器 fφ : X → [0, 1]|Y|| 。

4.Experiments

  • Noisy Training Sets
    • NIH Chest X-ray14 (NIH)
    • CheXpert (CXP)
  • Clean Testing Sets
    • OpenI dataset
    • PadChest
  • Systematic Noisy-label Assessment
    然后,我们仅对 PadChest 训练子集应用对称标签噪声,根据两个控制变量,
    • 噪声样本比例
    • 标签切换概率,将标签从存在翻转为不存在,反之亦然 该数据集被称为 NIHxPDC。

4.1. Implementation Details

实验细节

4.2. Classification Results on Real-world Datasets

4.3. Systematic Noisy-label Benchmark

4.4. Ablation Study

5.Discussion and Conclusion

有噪声的多标签 CXR 数据集中学习的新方法–BoMD

  1. BoMD 利用来自 BlueBERT 的词嵌入来表示临床语义信息,从而优化多标签图像描述符,这些描述符用于查找有噪声的多标签训练样本。
  2. 然后,我们利用学习到的图像描述符构建一个图,以便顺利地对训练数据重新贴标签。
    在三个实际 CXR 基准测试中,BoMD 的表现优于当前的 SOTA 方法,这三个基准测试包括在两个大规模噪声多标签 CXR 数据集上的训练和在三个干净的多标签 CXR 数据集上的测试。此外,我们还在我们提出的系统基准上对 BoMD 进行了评估,以进一步展示我们方法的有效性和鲁棒性。
  • 局限性和未来工作
    • 训练时间较长(与 NVUM 相比增加了 8 小时),因为它需要多个训练阶段。计划通过更好地整合训练阶段来解决这个问题。
    • BoMD 在噪声极高的标签设置下(即表 4 中的 [0.6,0.6])性能会下降,这是由于平滑重贴标签过程中的错误造成的。然而,如此高的噪声率在现实世界中可能并不适用,因为文本挖掘性能的 F1 分数通常在 80% 到 94% 之间 [9,44,57],这表明噪声率远小于 60%。
    • BoMD 的另一个缺点是无法解决不平衡学习问题,而这一点在使用 CXR 数据集进行训练时非常重要。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值