每周一篇 文献阅读—paper 4


Reg R-CNN:噪声标签下的病变检测和分级

文章链接:https://arxiv.org/pdf/1907.12915

译文

摘要

对于同时检测和分类对象的任务,医学成像社区通常采用在自然图像上开发的方法。目前最先进的物体探测器由两个阶段组成:第一阶段产生区域提议,第二阶段随后对它们进行分类。然而,与自然图像不同,对于诸如肿瘤的感兴趣的解剖结构,图像中的外观(例如,sclae或intensity)与位于连续序数尺度上的恶性等级相关联。然而,分类模型通过将连续尺度离散化为无序的类别包丢弃了等级之间的这种顺序关系;而回归模型则使用距离度量进行训练,从而保留了这种顺序关系。这种优势(保留顺序关系)在设置模糊数据集上的噪声标签时变得更加重要,这是医学图像的常见情况。为此,我们提出Reg R-CNN,它用回归模型代替当前object detector的第二阶段分类模型。我们在一个有着1026名患者的公开数据集上和一系列的toy实验上展现了本文方法的优越性。代码即将公开。

引言

在经典计算机视觉中已经广泛研究了同时检测和分类对象的任务[4,9]。 在医学图像计算中,已经提出了许多方法来预测病变位置和分级,其中大多数是利用手动注释以监督的方式。 然而,当采用最先进的物体检测器进行端到端病变分级时,必须考虑到这两种数据中的固有差异:病变的分级表示自然连续和有序特征(sclae,intensity)对具有临床意义的语义类别的主观离散化(例如,BI-RADS score, Gleason score [10], PI-RADS score, TNM staging)。 这与自然图像中的典型任务形成了对比,在自然图像中,类别可以被描述为无序的集合(狗和车之间没有自然的有序关系)。

因此,当前的对象检测器将分类短语称为分类任务,并使用交叉熵损失进行训练,而不考虑类之间的连续序数关系(参见第2.1节)。 在本文中,我们考虑了病变外观和派生类别中的序数信息,旨在提高模型性能。 为此,我们提出了Reg R-CNN,它用回归模型取代了Mask R-CNN [4]的分类模型,这是一种先进的物体探测器。 回归模型利用距离度量,即,模型直接在基础连续尺度上训练,其在医学图像的病变分级设置中具有以下主要益处:

医学数据集通常表现出高度模糊性,这主要是由人工注释的可变性导致的。假设类混淆遵循基本ground truth的分布,那么在回归中使用的距离度量(如L1距离)而非分类交叉熵更更能容忍与目标值的轻微偏差,分类交叉熵会平等地惩罚所有有偏差的目标预测[3]。

我们在一个有着1026名患者的公开数据集上和一系列的toy实验上展现了本文方法的优越性,并且本文的代码也即将公开。

方法

Regression vs. Classification Training

为了了解为什么我们期望回归模型的训练对于标记噪声比对目标类别在连续范围内的分类模型更加稳健,让我们首先重新审视通常被分类器最小化的目标。 这个目标是交叉熵(CE),定义为:
在这里插入图片描述
上式为离散标签j∈C上的目标分布p(X)与给定数据X的预测分布q(X)之间的交叉熵定义。对于互斥类,目标分布由delta分布p(X)= {δij}_j∈ C给出。 为了产生预测q(X),网络的logits z(X)通过softmax函数压扁:
在这里插入图片描述
将上式代入式(1),得到目标类别i,引出损失项:
在这里插入图片描述
从式(3)可以看出,标准CE损失将标签视为无序的目标袋,其中所有p偏离目标类的(j != i)都以相同的方式受到惩罚,而不管它们与目标类别i的接近程度。另一方面,距离度量,顾名思义,考虑了预测与目标的距离。 这使得损失在预测偏离目标时得以缩放, 允许更多地接受轻微的差异,它可以更好地适应目标标签在连续体上可能存在的噪声标签。 在下面的实验范围内,我们将分类与回归设置进行比较,为此我们采用了Smooth L1 Loss [5]:
在这里插入图片描述
由上式来预测值p和目标值t。其他工作已经研究了对CE损失的适应性以解释分类任务中的噪声标签,例如,[11,13]。 我们的方法是对这些工作的补充,因为它利用医学图像上的标签连续性。

Reg R-CNN & Baseline

所提出的Reg R-CNN架构基于Mask R-CNN [4],这是一种先进的两级探测器。在Mask R-CNN中,首先,将对象与背景区别开来,与类无关,并伴有边界框回归以生成大小可变的region proposals proposals被重新采样到固定大小的网格并送入三个分支网络:一个用于分类的分类器;一个用于确定坐标的第二个边界框回归器;以及一个用于产生分割输出的完全卷积(除了训练期间额外的像素损失外,后者不再用于这项研究)。 Reg R-CNN(见图1)简单地用回归分支替换分类分支,回归分支用Smooth L1 Loss代替Cross-Entropy损失进行训练(参见2.1节)。对于输出预测的最终过滤,非最大抑制(NMS)是根据检测置信度得分执行的(在Mask R-CNN中,这些是由分类提供的)。由于回归不会产生置信度,我们使用来自第一阶段的Objectness scores来代替进行评分。在本研究中,我们将Reg R-CNN与Mask R-CNN进行比较,作为我们方法的分类对照。对原方法[4]仅进行了微小的更改:region proposals网络中的feature maps数量降低到64,以解决GPU内存限制问题。 用于分类和mask的3D RoIAlign的池化大小(用于创建固定大小的proposals的重采样方法的3D重新实现)被设置为(7,7,3)和(14,14,5)。对于proposals的IoU要求降低到0.3。Objectness scores用于最终的NMS,以反映检测和分类任务的期望分离。请注意,所有更改也适用于Reg R-CNN,因此模型之间唯一的差异是分类与回归的交换。

Evaluation

将回归性能与分类模型进行比较需要考虑其他因素,因为这两个因素都是按照上游的检测任务进行训练的。为了比较连续回归输出和离散分类输出,我们对训练后的连续回归输出进行了bin,以便bin cenetrs与离散分类目标相匹配。更重要的是,物体检测和分类的联合任务通常使用平均精度(AP)进行评估[2]。但是,计算AP需要每个类别的置信度分数,而如前所述,这些分数不是由回归输出提供的。因此,我们借用了视点估计中常用的度量,即平均视点精度(AVP)[12]。基于AVP,我们将病变评分作为一项附加任务置于前景与背景目标检测之上:为了将框预测视为真阳性,需要将ground truth box与IOU>0.11的匹配,另外,恶性肿瘤预测分数需要位于正确的类别bin中。这样,AVP可以同时测量模型的检测和恶性评分性能。此外,我们对任务性能进行了分类,并分别报告了前景与背景检测的AP(这构成了AVP的上限)和bin精度。后者是通过根据检测指标选择真正的阳性预测,并计算与目标bin匹配的恶性评分来确定的。
在这里插入图片描述
图1。Reg R-CNN用于对象的联合检测和分级。 该架构与Mask R-CNN密切相关[4],Mask R-CNN中使用的是分类而不是图中的“Score Regressor”网络进行分级。 FPN表示特征金字塔网络[8],RPN表示区域提议网络,RoIAlign是在分类之前将object proposlas重采样到固定大小的网格的操作。

实验

参照原文
在这里插入图片描述
图2。a) 平均病灶级的按x轴和各bin边缘(蓝线)的bin的平均等级排序的恶性程度标准偏差; b)-d) 来自LIDC数据集的示例切片,分别示出GT,Reg RCNN和Mask R-CNN预测。GT中的”sa. MS”表示单注释器等级(等级0表示没有发现),”agg. MS”表示平均值。 ”FG” 表示前景置信度,”MS”表示预测的恶性分数。由于加权框聚类[6],mask R-CN 的 MS可以是非整数。 颜色象征着bin。
在这里插入图片描述
图3。a) 玩具实验中所有五类(r1-r5)的圆柱(2D投影); b) 精确GT;c) 每个类别(r1-r5)的噪声GT的示例。 ra表示带注释的半径(目标回归值)。 d)用于产生噪声GT的高斯采样分布, 绿色垂直线描绘了确切的GT值,而蓝线是相应的标签 - 噪声分布。 绿色矩形是用于训练分类器以及评估两种方法的bin(为方便说明,将边界放大了)。 请注意,请注意,分布到相邻的bins,会导致标签混淆。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值