RECASNET: IMPROVING CONSISTENCY WITHIN THE TWO-STAGE MITOSIS DETECTION FRAMEWORK 笔记

最新推荐文章于 2024-10-05 19:19:55 发布

嘉恩督

最新推荐文章于 2024-10-05 19:19:55 发布

阅读量405

点赞数

文章标签：深度学习人工智能计算机视觉

原文链接：https://arxiv.org/abs/2202.13912v1

版权

RECASNET: IMPROVING CONSISTENCY WITHIN THE TWO-STAGE MITOSIS DETECTION FRAMEWORK

2022年文章，ReCasNet：一种提高一致性的两阶段有丝分裂检测框架
github代码：https://github.com/cmb-chula/ReCasNet

摘要

有丝分裂计数(Mitotic count, MC)是癌症诊断和分级的重要组织学参数，但手工从全切片组织病理学数字图像中获取MC的过程非常耗时且容易出错。因此，深度学习模型被提出了推动这一过程。现有的方法采用两阶段的方法：检测阶段确定潜在有丝分裂细胞的位置，分类阶段提高预测的可信度。

However, this pipeline formulation can lead to inconsistencies in the classification stage due to the poor prediction quality of the detection stage and the mismatches in training data distributions between the two stages.
但是，由于检测阶段的预测质量较差，以及两个阶段之间的训练数据分布不匹配，上面这种管道方法会导致分类阶段的不一致。

在本研究提出了一种改进级联网络(ReCasNet)，它是一种增强的深度学习管道，通过三种改进来缓解上述问题。首先，利用窗口重定位来减少检测阶段产生的劣质假阳性的数量。其次，利用另一个深度学习模型进行对象重新裁剪，以调整中心不好的对象。

Third, improved data selection strategies were introduced during the classification stage to reduce the mismatches in training data distributions.
第三，在分类阶段引入改进的数据选择策略，以减少训练数据分布的不匹配。

ReCasNet在犬皮肤肥大细胞肿瘤(CCMCT)和犬乳腺癌(CMC)这两种大规模有丝分裂图识别数据集上进行评估，结果表明，有丝分裂细胞检测的F1评分提高了4.8%，MC预测的平均绝对百分比误差(MAPE)降低了44.1%。基于ReCasNet的技术可以推广到其他两阶段目标检测网络，应该有助于提高深度学习模型在广泛的数字病理学应用中的性能。

引言

首先对传统手工统计有丝分裂到利用机器学习，再到使用深度学习进行了简单表述
数据收集过程的质量以及不同细胞分裂阶段的有丝分裂图像与其他相似有丝分裂样对象之间的模糊性使得机器学习模型在有丝分裂图检测中存在误差。首先，在无法重新调整的单个焦平面上扫描每个WSI。结果，许多单元失焦并产生较差的纹理信息。此外，有丝分裂图本身可以在细胞分裂阶段具有不同的外观，并可能与其他细胞类型或非细胞对象混淆。因此，一些有丝分裂图的分类可能是高度主观的，这导致不同专家报告的有丝分裂计数截然不同。尽管存在这些问题，自动有丝分裂图检测和有丝分裂计数预测仍然被视为数字病理学中的一项关键任务，是一个活跃的研究领域。

为了开发用于核分裂像自动检测的模型，可以使用具有专家注释的数据集，如ICPR MITOS2012、AMIDA 2013、ICPR MITOS-ATYPIA-2014和TUPAC16挑战。然而，由于这些数据集只包含热点区域对应的高功率场(HPF)的有丝分裂图注释，该模型不能完全学习大多数未注释的WSI。此外，在这些数据集中注释的有丝分裂图的数量很低，通常每个不到1000个对象。最近，已经发布了两个大范围的有丝分裂图数据集，并且注释覆盖了整个幻灯片:犬皮肤肥大细胞肿瘤(CCMCT) 数据集和犬乳腺癌(CMC)数据集。这些新数据集的可用性允许模型从大量增加的有丝分裂图像和背景多样性中学习，这立即提高了模型的性能(9)。然而，应该注意的是，这些数据集是用半径为25像素的固定大小的圆形包围框注释的，这不能完美地捕捉有丝分裂图像的形状，并会在训练过程中产生噪声和误差。

这里解释了采用两个阶段的原因：
除了数据采集和标注的不完善之外，解决任务的深度学习方法的制定也对模型的性能起着重要作用。现有的有丝分裂识别模型通常将任务分为两个阶段:检测和分类。一个主要原因是WSI的庞大规模阻止了模型直接在其上操作。相反，WSI必须被分解成更小的patch，在滑动窗口上进行推理，然后提取有丝分裂图像的位置。检测阶段通过使用深度目标检测或分割模型提出WSI中有丝分裂图像的位置。在提出有丝分裂图之后，分类阶段通过首先提取每个预测的有丝分裂图的位置，并修改相应的图像patch，使其围绕有丝分裂图中心，并确保只有一个有丝分裂图包含在patch中，从而改进预测结果。然后，每个修改后的图像patch被馈送到一个深度对象分类器，以获得一个置信度评分。分类阶段显著提高了有丝分裂图像识别性能，因为它克服了检测阶段的缺点，检测阶段必须处理更广泛的图像补丁，一些没有有丝分裂图像，一些有多个有丝分裂图像。

尽管有上述的好处，多级pipeline也有一个关键的缺点；分类阶段从检测阶段接收到的输入数据不一致，训练分布不匹配。由于在检测阶段进行推理，其输出不可避免地包含不准确的对象位置和质量较差的边界框，导致在后续阶段的图像补丁中对象的位置不一致。==这种不一致导致分类阶段性能下降，因为大多数卷积神经网络不具备移位不变的特性，无法正确处理检测阶段产生的对象位置和边界盒分布的变化。==如果使用滑动窗口，情况会进一步恶化，因为它可能会将一个对象分成多个补丁，从而导致额外的劣质假阳性。两个阶段之间训练数据分布的不一致也是不可忽视的。虽然检测阶段学习WSI的整个数据分布，但分类阶段主要只观察有丝分裂的图形和其他看起来相似的物体。这种训练分布不匹配导致分类阶段在接收到没有有丝分裂图的输入时出现分布不均的问题。深度有丝分裂通过使用从检测阶段到训练分类阶段的所有预测，包括低置信度的预测，缓解了这个问题。然而，这种方法在大规模数据集中是不切实际的，因为检测头提出了成千上万的对象。

为了解决上述所有问题，我们引入了Refine Cascade Network (ReCasNet)，这是一种增强的深度学习管道，用于提高大规模有丝分裂图像识别数据集的识别性能。我们的管道通过增加输入数据分布的一致性和将模型暴露给更多信息的数据，提高了分类阶段的性能。首先，我们提出了一种简单有效的方法——窗口重定位，这克服了重叠滑动窗口的缺点，删除了窗口边界周围的对象，并将其重新计算为新提取的补丁的中心。该方法在消除糟糕的边界框的同时，比重叠滑动窗口的计算成本更低。其次，我们引入了对象中心调整阶段，这是一个深度学习模型，负责弥合分类阶段和检测阶段之间的差距。它生成新的图像补丁，以检测阶段预测的有丝分裂图像为中心，并将它们提供给分类阶段，以减少输入翻译中的方差。第三，我们改进了DeepMitosis验证模型(即分类阶段)的训练数据采样过程，将重点放在来自提出对象的信息性样本的子集上，而检测器和分类器在这些对象上分歧最大。

我们评估了ReCasNet在CCMCT和CMC数据集(两个用于有丝分裂图评估的公共大规模数据集)上的性能。ReCasNet在CCMCT数据集上实现了83.2%的测试F1，在CMC数据集上实现了82.3%的测试F1，分别对应于基线上+1.2和+4.8个百分点的改进。通过将ReCasNet生成的HPF和有丝分裂计数(MC)与ground truth注释进行端到端评估，结果显示，与CCMCT和CMC数据集的基线相比，我们的pipeline在全自动设置下提出的有丝分裂计数产生的平均绝对百分比误差(MAPE)，分别减少了了44.1%与28.2%。
$MAPE=\frac{1}{n}\sum_{i=1}^n |\frac{\hat{y}_i-y_i}{y_i}|\times 100\%$

回归模型评估指标

方法

管道的概览如图1所示。该管道由四个阶段组成。首先，检测阶段使用目标检测算法提出WSI中有丝分裂图的位置。在此之后，窗口重定位算法重新评估图像边界周围质量较差的假阳性预测。然后，对象中心调整阶段细化提取对象的质量，使其更接近补丁中心。最后，通过分类阶段重新评分每个patch的目标置信度。在分类阶段，利用检测阶段和分类阶段之间的差异，从WSI中选择训练样例来提高模型性能。
在这里插入图片描述

检测阶段

检测阶段是管道的第一个组成部分，负责从图像中提出有丝分裂图像的位置。它是一个深度对象检测器，接收图像作为输入，返回一组边界框 ${(x_1,y_1,w_1,h_1,S_1),...,(x_n,y_n,w_n,h_n,S_n)}$ ，其中集合中的每个元组分别代表预测对象的中心、对象宽度、对象高度和正的对象置信度。由于WSI的巨大尺寸，滑动以滑动窗口的方式被分解成更小的补丁。滑动窗口算法将尺寸为 $W \times H$ 的幻灯片分解为1个图像补丁(窗口)，窗口大小为 $K \times K$ ，然后检测阶段对每个补丁进行推断，提取其中有丝分裂图像的位置。为了训练检测器，我们遵循CCMCT和CMC基线的数据采样策略。为了稳定模型的性能，我们对训练过程进行了轻微的修改，预先对训练图像进行采样，而不是动态查询。

滑动窗算法的使用会导致产生过多的低质量的假阳性预测。这是因为窗口边界周围的对象可能被部分分割为多个滑动窗口中的多个对象。因此，通过允许补丁与前一个补丁重叠，可以执行重叠滑动窗口来缓解这个问题。这导致窗口边界周围部分分割的框被完全覆盖，尽管多余的预测也会过度产生。因此，采用非最大抑制(non-maximum suppression, NMS)作为去除冗余对象的后处理方法。当附近存在bounding boxes时，NMS会对其进行抑制。
其中，交集过并(IOU)超过一定的阈值，具有较高的置信度。NMS的使用减少了假阳性预测，因为低质量、低置信度的盒子大部分被删除，而保留了高质量、高置信度的盒子。尽管有这样的优势，但重叠窗口增加了执行推断的补丁数量 $\left\lceil\frac{W}{K(1-\sigma)}\right\rceil \times\left\lceil\frac{H}{K(1-\sigma)}\right\rceil$ ，其中 $\sigma$ 为重叠比。此外，尽管问题是这种方法不能保证边界处的良好性能。

窗口重定位

窗口重定位是用于删除滑动窗口边界周围的劣质预测的简单算法。该方法旨在消除重叠滑动窗口的两个主要弱点。第一个缺点是，当IOU没有高到NMS可以抑制的程度时，围绕窗口边界的低质量预测仍然存在，这将导致在最终评估期间假阳性数量的增加。另一个缺点是，当窗口及其周围环境不包含任何对象时，计算资源会被浪费，特别是对于这个任务，有丝分裂图通常在WSI中稀疏分布。
在这里插入图片描述
图2说明了窗口重定位算法的过程。窗口重定位通过三个步骤缓解了这两个问题。首先，在每个补丁的边界周围定义一个重新定位区域(图2中的黄色区域)。所有中心位于该区域的正对象都将被丢弃。之后，对于每个被丢弃的对象，将创建中心为被丢弃对象中心的新窗口(图2中的补丁A’和B’)。最后，检测器对新创建的窗口执行推断。通过执行这些步骤，对象的焦点将从窗口边界移动到新创建的窗口中心。该算法为我们提供了三个优点。首先，它将减少窗口边界周围的低质量预测，因为大多数预测都被删除了。其次，将重新定位的对象定位在窗口中心会产生更一致的检测结果。第三，在不包含任何对象的区域不增加计算量。虽然这种方法可能会产生冗余的预测，但它不会对整个管道造成重大影响，因为使用NMS可以很容易地删除新的一致生产的box。

接下来，对重定位区域进行了明确的定义。如果满足以下条件，则可以认为每个窗口中的第 $i$ 个对象位于重新定位区域内。

$(min(x_i,y_i,K-x_i,K-y_i)\leq M)\wedge (S_i\geq D)$
换句话说，在任意轴上距离窗口边界小于等于M像素的对象的中心，在重定位区域内具有比D更高的正对象置信度，并且符合窗口重定位的条件。M是一个超参数，它决定了与窗口边界的距离阈值，影响重新观察对象的数量。如果M设置为一个较低的值，窗口重定位将充当一个不重叠的滑动窗口。相反，较高的M值将允许更多的对象被重新评分。将M设置为较高的值也会带来权衡，因为它将导致计算成本的增加，因为检测器必须重新推断更多的对象。然而，使用窗口重定位的计算成本预计比重叠滑动窗口更低。这是因为它只会尝试重新推断窗口边框周围的对象，以及窗口边框中的对象数据集通常是稀疏的。D为正置信阈值，用于丢弃检测器产生的明显反例。在两个数据集处理中它都被设置为0.05。

由于我们事先知道在注释过程中，有丝分裂图通常具有圆形形状，半径在25像素左右，我们也遵循这个假设，将M设置为25像素。应该注意的是，这种方法在一般的物体检测任务中不会有效工作，因为物体的形状无法事先知道。

目标中心调整阶段

虽然在重新定位窗口后对滑动窗口边界附近的许多假阳性样本进行了重新评估，但仍然存在边界框质量较差导致分类阶段输入不一致的问题。输入不一致会导致被提取的目标无法定位在图像补丁中心，这会产生输入平移方差从而导致分类阶段性能下降。因此，我们引入一个目标中心调整阶段作为窗口重定位后的细化过程，通过使对象中心更接近于补丁中心来减少输入平移方差，从而减少图像补丁中正类对象的位置不一致。目标中心调整阶段是通过估计图像贴片中心到地面真实正类目标中心的距离来学习定位正类目标中心的模型。然后，在一个推理过程中，它预测对象的中心位置，并生成一个新的补丁，如果对象类是正的，其中心是预测的位置。因为负类对象含有非细胞背景和广泛的组织纹理区域，其目标中心的概念不明确，所以不进行调整。图3显示了目标中心调整阶段的概述。
在这里插入图片描述
为了训练模型来估计物体中心的位置，我们在patch的不同位置生成代表物体中心的数据作为模型的输入。生成过程首先从数据集中随机采样正面和负面对象，并在图像补丁中提取它们。通过这样做，采样对象的图像中心始终处于与ground truth对象中心相同的位置。然后，对采样图像进行随机几何变换，即图像的随机移动、翻转、旋转。结果，ground truth中心从图像中心移动了 $d_x, d_y)$ 个像素。在对图像进行变换后，模型通过预测 $d_x, d_y)$ 来学习预测物体中心的位置。 $d_x, d_y$ 的值是从正态分布中提取的，并且被限制在一个很小的值 $d_x, d_y < 12像素)$ ，因为我们假设预测对象的中心应该接近ground truth对象的中心。

由于这一阶段的目标是重新定位正例目标的中心，所以必须事先知道目标的类别，这在实际中是不实际的。因此，必须从模型推断出目标类。利用检测阶段的目标置信度可以直接获得目标类别。检测到的置信度大于一定阈值时，可以推断对象为正类。然而，使用检测器置信度可能并不理想，因为由糟糕的边界框产生的置信度可能不准确。因此，我们为对象中心调整阶段增加了一个辅助任务来对对象类进行分类。由于这个阶段的输入只是一个提取的补丁，它允许模型一次观察一个对象，消除了对其他对象不必要的干扰。因此，这种改进所产生的置信度应该优于检测器置信度，因为它继承了分类阶段那样的有限观测的优点，而且它还具有标注对象中心的信息。

目标中心调整阶段是一个深度卷积神经网络(CNN)，输出两个预测头:估计图像中心到ground truth中心距离 $d_X, d_Y)$ 的主回归头和预测目标类别的辅助分类头。使用重定位损失 $L_{rel}$ 对模型进行优化，如所示。
$L_{rel}=\lambda _{reg}L_{reg}+(1-\lambda _{reg})L_{cls}$
重定位损失 $L_{rel}$ 是回归损失 $L_{reg}$ 和经参数 $\lambda _{reg}$ 加权的分类损失 $L_{cls}$ 的组合。分类损失是一个标准的计算预测和ground truth目标类别之间的交叉熵损失计算。回归损失是 $L 1$ 损失，它在预测值与实值对象中心距离之间计算。为了防止回归噪声，当基础真值类为负时，将忽略回归损失计算。

在推理过程中，模型接收一个提取的对象作为输入，然后通过估计从对象中心到补丁中心的距离作为输出返回对象类及其中心的位置。如果预测对象置信度高于一定阈值，则认为该对象为正对象，生成以预测位置为中心的新patch。另一方面，如果对象的置信度低于阈值，则模型不做任何事情。

分类阶段

在执行对象中心调整阶段后，提取对象的中心向patch中心靠近，准备送入分类阶段。分类阶段是一个类似于对象中心调整阶段但在功能上不同的模型。与前一个阶段相比，这个阶段是一个只输出分类头的CNN。分类阶段从对象中心调整阶段接收提取的对象作为输入，并返回对象的置信度。可以认为，这一阶段可能是多余的，因为目标中心调整阶段也可以返回置信度值。然而，与前一阶段的主要区别是，对象始终位于图像中心。这意味着模型捕获对象转换方差的重要性降低了。因此，在训练过程中不包含可能改变目标中心位置的数据增强策略，从而提高了训练稳定性和更好的识别性能。

这一阶段的训练过程类似于对象中心调整模型。首先，在一个孤立的区域从数据集中随机采样正例和反例对象。然后对样本进行增强并输入分类器，预测对象置信度。我们遵循DeepMitosis进行最终的对象置信度计算。最终的目标置信度 $S$ 在检测阶段 $S_{det}$ 和分类阶段 $S_{cls}$ 产生的置信度之间进行加权，使用权重 $\omega$ 如下所示。
$S=\omega S_{d e t}+(1-\omega) S_{c l s}$

主动学习数据选择

尽管提议的管道产生了良好的性能，但数据集仍然没有得到充分利用。这是因为分类阶段只观察带注释的对象，而未注释的对象不受影响。DeepMitosis解决了这一问题，使用检测器从原始WSI中提取图像区域来训练分类阶段。然而，这种方法在大规模数据集中变得不那么有效，因为它将从WSIs的负类中生成大量对象。这些额外的数据不仅会带来严重的类别不平衡，还会带来消极类别的信息缺乏问题。因此，主动学习技术应用于只选择提出目标中含有信息的子集。

为了量化目标的信息量，我们使用检测器和分类器的正类置信度之间的L1距离。这个标准给我们带来了两个好处。首先，它将鼓励分类器通过向检测器学习来纠正错误，检测器通常在过滤负类对象方面表现得更好。其次，它不鼓励选择含有噪声的注释，因为有可能正类的许多对象没有这样注释。在这些情况下，检测器和分类器都将返回较高的正类置信度和抛弃他们。这里，我们选择信息量最高的前N (N = 20,000)个负类对象作为附加查询，对分类模型进行再训练。

实验设置

数据集

我们的方法所选择的基准数据集是CCMCT数据集的ODAEL变体和CMC数据集的CODAEL变体。这两个数据集的显著特征是在WSI水平上使用算法辅助注释和专家的共识可获得完整的有丝分裂图注释。此外，还对硬阴性物体(有丝分裂像)进行了标注，提高了训练信息的准确性。CCMCT数据集包含32个WSI上的44,800个有丝分裂图注释，其中11个被保留用于测试。CCMCT数据集包括四类:有丝分裂、有丝分裂样、粒细胞和肿瘤细胞。第一类是正例，而其余的被认为是反例。以同样的方式，CMC数据集包含21个WSI上13907个有丝分裂图的注释，其中7个供测试使用。CMC数据集包括两类:有丝分裂和非有丝分裂。

检测阶段

训练使用Faster R-CNN， ResNet-50作为网络骨干网，输入训练分辨率为 $512 \times 512$ 。使用ImageNet预先训练的权重初始化网络骨干。除了输出类的数量外，我们没有修改基本检测算法。我们使用相同的数据采样策略作为基线，从训练全切片组织病理学数字图像中采样了5000个图像补丁。训练框架基于目标检测框架MMDetection。该模型使用8批处理大小和SGD作为优化器进行训练。模型训练8个epochs初始学习率为 $10^{-3}$ ,5个epochs和7个epochs后再除以10。训练过程中使用随机翻转和标准光度增强。

目标中心调整阶段

训练采用EfficientNet-B4作为网络骨干网，输入训练分辨率为 $128 \times 128$ 。使用ImageNet预训练权值初始化网络骨干。该模型使用64批大小和Adam作为优化器进行训练。模型经过30000次迭代，初始学习率为 $10^{-4}$ ，经过22500次迭代和27000次迭代后再除以10。每个实验的 $\lambda _{reg}$ 设置为0.95。训练过程中使用了随机图像几何增强和标准光度增强。CMC和CCMCT数据集的阳性类阈值分别设置为0.2和0.5。

分类阶段

训练采用EfficientNet-B4作为网络骨干网，输入训练分辨率为 $128 \times 128$ 。网络初始化使用ImageNet预先训练的权重。该模型使用64批大小和Adam作为优化器进行训练。对于CCMCT数据集，30,000次迭代以 $5\times10^{-4}$ 的初始学习率训练模型，在22500和27,000次迭代后除以10。对于没有数据选择的CMC数据集，在15,000次迭代中以 $5\times10^{-4}$ 的初始学习率训练模型，在10,000次迭代和13,000次迭代后除以10。对于有数据选择的CMC数据集，模型在24,000次迭代中以 $5\times10^{-4}$ 的初始学习率进行训练，在15,000次和21,000次迭代后再除以10。训练过程中除随机平移外，采用随机图像几何增强和标准光度增强。

结果

在CCMCT和CMC数据集上评估了所提方法的性能。使用F1(%)作为主要指标，并使用相同的火车测试分割。我们报告了三次平均分裂的标准差。用于评价的模型是最后一个训练步骤的检查点。表1所示的结果总结了我们方法的性能。最终，该管道的性能在CCMCT数据集上从82.0%提高到83.2%，在CMC数据集上从77.5%提高到82.6%。主要贡献因素是数据选择和对象中心调整阶段，分别贡献了2.6%和4.2%的绝对性能提升。结果表明，输入一致性和在分类阶段公开额外的无注释数据对性能改进至关重要。
在这里插入图片描述
然后，我们通过观察假阳性误差来研究我们的管道产生的错误预测，并将它们分为容易误差和硬误差。硬错误是将硬负对象混淆为正类，而易错误是将正类与非硬负对象或背景图像混淆。图4显示了我们方法的假阳性误差的可视化。与基线相比，我们的方法大大减少了容易出现的假阳性预测的数量。然而，阳性和硬阴性样本之间的混淆仍然存在。这说明输入变化方差并不是造成硬阴性和阳性目标混淆的唯一因素。
在这里插入图片描述

物体中心调整阶段的效果

在本小节研究了目标中心调整阶段对管道的影响。首先，我们证明了这一阶段的存在使得所提出的对象中心质量的提高。然后，我们提供消融研究来确认我们的设计选择。对于每个实验， $\omega$ 设为零，并排除窗口重定位。

补丁中心到原始位置的距离可以衡量物体中心调整性能。假阳性不包括在这个指标中，因为它与这个阶段无关。对象中心调整阶段将CCMCT数据集的平均距离从3.59降低到3.17，将CMC数据集的平均距离从3.61降低到3.40。结果表明，使用目标中心调整阶段可以明显降低输入平移方差。

图5显示了由对象中心调整阶段产生的预测对象中心的示例。模型往往能准确定位实际物体中心的位置，如图5a所示。然而，错误调整的对象也存在。一些常见的错误预测来自于末期细胞的混淆，它们看起来像两个独立的有丝分裂图。结果，模型与其中一个主轴对齐，而不是实际的中心。
在这里插入图片描述
其他导致预测错误的原因还包括当预测的对象中心离ground truth中心太远时，模型无法精确定位对象中心、对象中心模糊和愚蠢的错误。接下来，我们证明了在回归损失中排除负类和辅助头的存在。由表3可知，当回归损失中包含负类时，模型性能从81.8%的检验F1下降到81.1%。结果表明，负类对象中对象中心的模糊性导致训练过程中出现回归噪声，最终导致性能下降。此外，辅助头将模型性能从81.5%提高到81.8%，显示了多任务学习的重要性。
在这里插入图片描述
我们还对管道设计的选择和可能改变目标中心位置的数据增强策略的去除进行了消融研究。表2显示平移增强提高了基管道分类阶段的性能。而目标中心调整训练方案将问题表述为一个多任务问题，比数据增强更有效。我们证实了这一点，用对象中心调整步骤取代分类步骤，并使用其分类头产生对象置信度。结果发现，仅使用对象中心调整阶段，整个管道的性能在CMC数据集上从80.5%提高到81.3%。通过增加重定位分级阶段，性能进一步提高到81.8%。然而，在堆叠管道的分类阶段进行平移增强会降低性能。结果还表明，在控制目标中心的平移方差的情况下，平移增强会影响算法的性能。
在这里插入图片描述

窗移位的影响

本小节旨在测量窗口移位对整个管道的影响。表4显示了窗口重定位和滑动窗口方法之间的比较。使用重叠滑动窗口并没有改善我们管道的性能，因为大多数过度生成的样例可以使用对象中心调整阶段和非最大抑制去除。通过窗口重定位，管道的性能优于无重叠滑动窗口和重叠滑动窗口，在CMC数据集上有0.2%的测试Fl绝对改进。结果表明，通过上述方法无法消除某些产生的误差。这是因为过度生成的对象的中心可能太远，对象中心调整阶段无法调整回实际中心。此外，我们还发现，在实际设置中，与非重叠滑动窗口相比，窗口重定位只会导致少量额外的推理时间。这是因为WSI中的有丝分裂图通常密度较低。此外，与重叠滑动窗口不同，窗口重定位可以忽略大部分背景图像，因为它首先不包含任何对象。在这里插入图片描述
由于窗口重新定位和物体中心调整阶段都有相似的目标，即改善检测阶段的低质量预测，我们进行了消融研究，分别观察每个组件的效果。表5显示了CMC数据集上两个组件的比较。窗口重定位改进了测试F1从80.3%到81.1%。然而，其性能仍低于物体中心调整阶段的81.8%。这是因为窗口重定位主要影响位于滑动窗口边框周围的对象。
在这里插入图片描述

检测算法的效果

我们通过改变基础检测算法对CMC数据集的检测算法进行了消融研究，发现我们的方法降低了对检测模型强度的依赖。我们将所选择的检测算法 Faster-RCNN-ResNet50与CCMCT和CMC论文中都存在的检测算法视网膜RetinaNet-ResNet18进行了比较。我们还通过与Faster-RCNN-ResNet101的比较，观察了不同模型骨干网的效果。每个实验都使用同一组数据和训练计划进行训练， $\omega$ 设为0。从表6可以看出，检测算法的选择对基础管道有显著影响。与Faster-RCNN-ResNet101相比，使用RetinaNet-ResNet18作为检测算法，在CMC数据集上的测试F1在检测阶段减少9.0%，在分类阶段减少2.2%。对象中心调整阶段和数据选择的存在有助于弥补2.2%到0.5%的测试F1差异的性能差距。结果表明，检测算法的性能直接影响预测bounding box的质量，导致分类阶段性能较差，而目标中心调整阶段是目标中心校正必不可少的组成部分。这也意味着，通过强调分类阶段，我们可以使用快速检测算法来潜在地大大减少检测阶段的推断时间，同时不会大幅降低性能。
在这里插入图片描述

端到端评估

通过比较我们的方法产生的有丝分裂计数(MC)与ground truth有丝分裂计数，我们进一步扩展了对我们方法的评估到端到端设置。我们遵循Meuten等人的方法，在有丝分裂象密度最高的区域，计算10 HPF (2.37 mm2)处的有丝分裂象，长宽比为4:3。通过选取包含有丝分裂图最多的矩形窗口大小7110/5333像素计算HPF面积。我们在两个设置上评估了建议的管道：GA和GB。GA设置直接将我们管道提出的HPF的有丝分裂计数与ground truth有丝分裂计数进行比较。相比之下，GB设置只使用了提出的HPF，但有丝分裂计数是通过计数ground truth有丝分裂细胞获得的。GA设置可以被认为是一个完全自动化的有丝分裂计数，而GB是一个在pipline中重复正确地识别有丝分裂数字的最佳病理学家。此外，GB设置比预测的有丝分裂计数更重视提议的HPF的质量，这主要集中在GA设置。我们报告了平均绝对百分比误差(MAPE)和平均绝对误差(MAE)在产生最低MAPE的预测阈值处。对于基线比较，我们使用了他们GitHub中测试集的预测结果。表7显示了在CCMCT和CMC数据集上GA和GB设置的结果。我们的方法显著降低了CCMCT和CMC数据集上的MAPE和MAE。图6显示了预测的有丝分裂计数和ground truth之间的关系。与基线相比，当物体出现在高密度时，我们的方法明显改变了有丝分裂计数，尽管在低密度情况下影响减弱。
在这里插入图片描述

结论

本文提出了一种增强的深度学习管道ReCasNet，引入了两阶段有丝分裂检测管道的三个改进。==首先，==我们引入了窗口重定位，通过删除窗口边界周围的预测并将它们分配到一个新的窗口以重新执行推断来减少滑动窗口算法引入的假阳性数量。其次，我们提出了一种深度学习模型的目标中心调整阶段，负责调整从检测阶段预测的有丝分裂细胞的中心，这提高了分类阶段输入的一致性。==第三，==我们利用一种主动学习技术，根据两个阶段之间的不一致，识别附加的信息性示例，以训练分类阶段，从而缓解训练数据中的不一致。我们提出的方法显著提高了整个管道在CCMCT和CMC数据集上对单个有丝分裂图的检测和端到端提取感兴趣区域和有丝分裂计数预测方面的性能。

词汇记录

time-consuming and prone to error 耗时且容易出错
facilitate this process 促进推动这一过程
refining prediction confidences 精炼提高提升预测置信度
mean absolute percentage error (MAPE) 平均绝对百分比误差MAPE
Nonetheless 尽管如此，但是
Conventionally 照惯例，照常套
the shift-invariant property 移位不变性