文献学习-34-具有可微分 ROI 网络和软 ROI 池化的胸部 X 光弱监督对象检测

Weakly Supervised Object Detection in Chest X-Rays with Differentiable ROI Proposal Networks and Soft ROI Pooling

Authors: Philip Muller, Felix Meissen, Georgios Kaissis and Daniel Rueckert, Fellow, IEEE

Keywords: Chest X-ray, Object detection, Pathology detection, Weak supervision

Source: IEEE TRANSACTIONS ON MEDICAL IMAGING, UNDER REVIEW

https://arxiv.org/pdf/2402.11985.pdf

Abstract

弱监督对象检测(WSupOD)提高了图像分类算法的实用性和可解释性,而无需额外的监督。 然而,由于图像对象(即病理)特性非常不同,这种任务的多实例学习在自然图像方面的成功并不适用于医学图像。 本文提出了一种名为 Weakly Supervised ROI Proposal Networks(WSRPN)的新方法,该方法使用专门的区域兴趣注意(ROI-attention)模块在运行时生成边界框建议。 WSRPN 与经典的骨干头分类算法集成良好,并且仅使用图像标签监督即可进行端到端训练。 通过实验证明,与现有方法相比,新方法在胸部 X 光图像中的疾病定位这项具有挑战性的任务中表现更佳。

图 1:基于 MIL、基于 CAM 和基于 MIL 的示意图; WSRPN 方法。

Background
对象定位是计算机视觉中的重要任务,不仅对下游任务有用,也是机器学习模型可解释性的关键因素。 然而,特别是在医学图像中,诸如边界框之类的定位标签成本高且获取困难,因为它们需要经过培训的专业人员投入大量的工作时间。 另一方面,图像标签更容易收集,可以从与现有医学图像相关的放射学报告中提取。 这使弱监督对象检测 (WSup-OD) 成为医学图像中疾病定位的一种可行方法。WSup-OD 在自然图像中拥有悠久的历史,常用的方法是多实例学习 (MIL),它使用选择性搜索或边缘框等算法来生成边界框提案。 然而,这些算法是基于自然图像中对象的启发式规则,不适合检测胸部 X 光图像中的疾病,因为它们具有非常不同的特征并且更精细。


为了解决这个问题,提出了一种名为 Weakly Supervised ROI Proposal Networks(WSRPN)的新方法,这是一种用于医学图像中 WSup-OD 的新范式。算法与经典的骨干头分类算法集成良好,并且可以端到端地训练,仅使用图像标签监督。方法在具有挑战性的 CXR8 数据集上的弱监督对象检测任务中取得了最先进的结果,并且是第一个成功在该数据集上训练的 MIL 方法。

Methodology

方法概述:
在弱监督对象检测设置中,假设给定一张图像,并使用一组非互斥类 C 对其进行标记,即每个类 c ∈ C 都有一个二进制分类标签 yc ∈ {0,1},从而形成一个多标签二进制分类任务。 给定每个图像的这些类标签,但没有边界框监督,训练了一个对象检测模型。

图 2:模型架构概述。 展示了patch 分支(蓝色)和 ROI 分支(紫色),每个分支都有编码步骤、MIL 分类和聚合以及损失函数。 MIL 模型中通常使用的组件是颜色为蓝色。 主要贡献用粗体概述线。 “sw”代表共享权重。 黄色表示部分边界框预测。

 WSRPN 基于 MIL 框架,其中使用边界框提案算法预测感兴趣区域 (ROI)。遵循 DETR 的方法,使用学习到的 ROI 查询令牌来关注由 CNN 骨干计算的补丁特征,并将框预测网络应用于得到的 ROI 特征。然而,由于没有框提案的监督,因此无法应用 DETR 损失函数。为了确保预测的框参数有意义(即关注相关区域),对 ROI 特征从补丁特征的聚合应用了基于高斯函数的软近似 ROI 池化。在软 ROI 池化中使用高斯分布引入了归纳偏差,保证了 ROI 特征表示围绕 ROI 中心预测的中心坐标的局部限制区域。

图 3:来自 ROI 分支的 ROI 注意力组件。 使用交叉注意力,ROI令牌{qk}收集相关信息来计算 ROI 特征。

然后根据 MIL 框架对得到的 ROI 特征进行分类和聚合,以便可以使用图像级类标签对其进行训练。由于只有弱监督,因此直接训练 ROI 提案可能会导致不稳定性,在训练的早期阶段,框提案的质量较差,这使得对其进行优化变得困难。因此,提出了一种双分支方法,其中第一个分支(补丁分支)将 MIL 框架应用于补丁,而第二个分支(ROI 分支)则指定为如上所述的 ROI。使用每个分支的损失和一致性损失来训练这两个分支,以确保 ROI 提案与判别性补丁保持一致。

ROI 分支:
ROI 注意力:在 ROI 分支中,使用 K 个学习到的 ROI 令牌,这些令牌通过 ROI 注意力组件从补丁特征 hPm,n 中收集相关信息,以计算 ROI 特征 hˆRk。ROI 注意力组件首先执行跨注意力,将 ROI 令牌用作查询,将补丁特征用作键和值。然后,它使用 MLP 和单头注意力层进一步处理得到的令牌特征,其中补丁特征再次用作键和值。

框预测和高斯 ROI 池化:对于令牌特征 hˆRk,预测其框中心坐标 µk 和相对图像大小的尺寸 σk。假设每个 ROI 内的相关特征大致遵循以框中心为中心的正态分布。根据这一假设,提出了一种平滑且可微的近似方法来聚合 ROI 特征,作为硬 ROI 池化替代方法。对于每个 ROI k,根据 2D 多元高斯分布的概率密度函数计算一个软受体场(即注意力图)Ak,mn,该函数在 x 和 y 方向上具有独立的零协方差。最后,使用受体场 Ak,mn 从补丁特征 hPm,n 中聚合 ROI 特征 hRk。

ROI 分类和聚合:使用与补丁分支共享权重的分类器对每个 ROI k 分配一个概率 pRkc 给每个 c ∈ C∪{∅}。然后,根据 MIL 框架聚合 ROI 概率 pRkc,但发现与 LSE 相比,noisyOR 聚合策略更有效。

弱监督损失函数:弱监督损失函数由三个部分组成:补丁分支损失、ROI 分支损失和保证两个分支相互一致的补丁 ROI 一致性损失。分支特定的损失函数(LP 和 LR)由两个组件组成:(i) 应用于聚合补丁或 ROI 概率的多标签二进制交叉熵损失,以提供强梯度;以及 (ii) 应用于从补丁或 ROI 分支获得的每个类特征的监督对比损失,以推动补丁和 ROI 关注判别性区域。

多标签二进制交叉熵:对于多标签二进制交叉熵损失 LPbce 和 LRbce,使用每个图像的二进制标签 yc,其中 c ∈ C 并且 yc ∈ {0,1}。还定义了 AND 逻辑下的无发现标签 y∧∅,如果没有其他类为真,则将其视为真,即 y∧∅ = 1−maxc∈C yc,因为在这种情况下,所有补丁/ROI 都应该被归类为无发现。还定义了 OR 逻辑下的无发现标签 y∨∅,始终将其视为真,即 y∨∅ = 1。

图 4:不同病理学结果的比较 方法 WSRPN 和 bootstrap 上的最佳基线 (N = 250) 测试集。 WSRPN 方法针对五种病理(肺不张、心脏扩大、积液、肿块和结节) 在气胸方面表现明显更好,与基线相比具有竞争力,而在两种病理(浸润 和肺炎),它的表现更差。

图 5:WSRPN 的混淆矩阵。 该矩阵是根据以下之间的一一对应关系生成的:匹配步骤后的预测框和真实框。

图 6:一些示例图像的定性结果。 左:成功检测到病理。 中:大致定位正确预测。 右:失败案例。 实心框是预测。 虚线框是人工注释的目标。

实验结果总结:

1. 数据集和评价指标:实验在具有挑战性的ChestXray-8 (CXR8) 数据集上进行,该数据集包含108,948张胸部X射线图像,每个图像可以有多个正标签,构成多类分类问题。数据集还包含了984个由认证放射科医师手工标注的边界框。为了评估模型性能,除了常规指标如平均精度(AP)和定位准确性(loc-acc),还使用了专为医学图像设计的鲁棒检测结果(RoDeO)指标。

2. 实现详情:所有模型使用ImageNet预训练的Densenet121作为骨干网络。对于基于类激活映射(CAM)的方法,采用了Wang等人的边界框生成方法。所有模型在PyTorch中实现,并使用AdamW优化器进行训练。

3. 与基线比较:WSRPN在所有指标上显著优于所有弱监督基线方法,实现了相对于最佳基线CheXNet w/ noisyOR聚合的RoDeO得分提升了96.5%,设置了新的弱监督目标检测的最先进水平。在定位精度和AP方面,尤其当需要更精确的定位时,WSRPN也大幅度超越了基线方法。

4. 不同病理表现:对于八种不同的病理,WSRPN在其中五种(肺不张、心脏增大、积液、肿块和结节)上表现显著更好,对于气胸与基线相当,而在两种病理(浸润和肺炎)上表现较差。这表明了模型在定位病理方面的优异能力,但分类能力在某些类别上有限。

5. 定性结果和失败案例:展示了模型预测的例子,包括正确检测出的病理和主要的失败类型,例如病理的不精确预测和错误分类或部分检测。

6. 消融研究:通过消融研究,评估了不同损失函数、ROI令牌数目、无发现类别的处理方式、软接收场的分布假设以及编码器补丁大小对模型性能的影响。结果表明,补丁分支的损失组件对稳定训练至关重要,而ROI分支的损失组件的移除虽然会导致性能下降,但模型仍与最佳基线相当。此外,采用标准高斯分布作为软接收场的假设是合理的,并且默认模型的补丁大小未见改进。

7. 单类与多类情况性能:在只有一个目标类别(单类)的图像中,WSRPN取得了很高的RoDeO得分,而在有多个目标类别(多类)的更困难情况下,得分有所下降。

综上所述,WSRPN在胸部X射线图像疾病定位任务上表现优秀,特别是在病理定位方面,尽管在某些病理的分类上存在局限性。消融研究进一步证明了模型各组件的重要性,并为未来的改进提供了方向。

讨论和结论
A. 临床适用性
WSRPN 模型在胸部 X 光图像的病理定位方面取得了有希望的结果。它可以为大多数研究病理提供精确或粗略的定位,即使边界框有时太大。在临床实践中,即使是这样的粗略定位也能提供巨大的价值,因为它们可以帮助临床医生在紧急情况下迅速发现病理。然而,也发现了一些局限性,限制了其当前的临床适用性。最重要的是,它经常对一些病理进行错误分类。请注意,不同病理的误分类风险是不同的。例如,将肿块误分类为结节的后果并不严重,因为它们都是癌症的指标,需要进一步检查。另一方面,将气胸误分类或遗漏则更为关键,因为可能需要立即进行临床干预。因此,未来的工作可以专注于提高 WSRPN 模型的分类能力。

B. 一种用于弱监督病理检测的新方法
提出了一种用于 WSup-OD 的新方法,它可以直接优化框参数(位置和大小)。现有的 WSup-OD 方法依赖于无监督、不可微的区域提案(基于 MIL 的方法)或使用阈值预测边界框(基于 CAM 的方法)。另一方面,高斯 ROI 池化使框参数能够直接通过不同类型的监督信号进行优化,甚至可以同时优化,这对于当前的其他方法是不可能的。这使各种应用成为可能,不仅限于 WSup-OD,包括但不限于将模型集成到多模态大型语言模型中、与文本的对比学习,或对部分样本进行具有边界框的半监督学习。相信除了在这一具有挑战性的任务中设定新的状态之外,还开辟了一条新的研究方向,无需阈值或外部框提案,这使这个研究不足的领域(弱监督病理检测)能够在现有方法的基础上取得进步,近年来,这方面的研究一直停滞不前。

C. 结论
提出了 WSRPN——一种用于 WSup-OD 的新范式,使用学习到的框提案,在应用于 X 光图像时,发现了现有框提案算法的一些弱点。虽然还需要进一步的临床验证,但在具有挑战性的 CXR8 数据集上的疾病检测方面设定了一个新的状态,并显著提高了现有方法。多年来,自然图像的基于 MIL 的方法得到了显着改进,也期待 RPN-MIL 方法取得类似的进步。将文本、解剖学信息或半监督等其他形式的弱监督集成到框架中是未来有前景的研究方向。

Reference:

[1] Müller, P., Meissen, F., Kaissis, G., & Rueckert, D. (2024). Weakly Supervised Object Detection in Chest X-Rays with Differentiable ROI Proposal Networks and Soft ROI Pooling. arXiv preprint arXiv:2402.11985.

  • 35
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 21
    评论
评论 21
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Metaphysicist.

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值