导读
我们的分析表明,来自自然图像领域的常用设计选择,如复杂的编码器架构、多尺度特征融合、查询初始化和迭代边界框精炼,并未改善,有时甚至削弱了医学影像中的目标检测性能。相反,更简单和更浅层的架构通常能达到等同或更优的结果。
摘要
基于Transformer的检测器在处理自然图像的计算机视觉任务中已经取得了成功。这类模型的代表,如可变形DETR,是通过复杂的工程策略优化的,这些策略专门针对自然场景的典型特征。然而,医学影像数据提出了独特的挑战,例如极高的图像分辨率、更少且更小的关注区域,以及只能通过细微差异来区分的目标类别。本研究评估了当这些基于Transformer的设计选择应用于一个具有这些独特医学影像数据特征的乳腺筛查数据集时的适用性。我们的分析表明,来自自然图像领域的常用设计选择,如复杂的编码器架构、多尺度特征融合、查询初始化和迭代边界框精炼,并未改善,有时甚至削弱了医学影像中的目标检测性能。相反,更简单和更浅层的架构通常能达到等同或更优的结果。这一发现提示我们,为了适应医学影像数据而调整Transformer模型需要重新审视标准做法,这可能导向更加高效和专业的医学诊断框架的发展。
1 介绍
近期计算机视觉领域的进展越来越多地集中在利用Transformer架构进行图像分类和目标检测。由于其内在的自注意力机制,Transformers能够有效地捕捉全局依赖关系并理解整个图像中的上下文联系,使它们能够获取更具表现力的特征。得益于这些优势,基于Transformer的模型在自然图像分析中变得普遍。此外,它们在医学影像中的应用也显示出令人鼓舞的结果,表明这些模型有潜力同样改变这一领域。
目标检测在医学图像分析中扮演着至关重要的角色,因为检测模型直接识别异常位置,这对于AI在医学诊断中的应用至关重要。随着基于Transformer模型的兴起,Detection Transformer (DETR),一种端到端的基于Transformer的目标检测框架,变得非常流行。DETR不需要非极大值抑制(NMS),这是一个减少重叠检测的后处理步骤,该步骤不可微且对预定义阈值敏感。NMS的消除使得端到端训练成为可能,并可以直接优化目标函数。通过在MS-COCO数据集上持续达到最先进的准确率,DETR已经确立了自己作为最具竞争力的检测框架之一的地位。因此,DETR的潜力吸引了大量研究兴趣,旨在提高整体性能和加速学习过程。这导致了一些高度工程化的基于DETR的架构的发展以及DETR家族内部多样化的设计选择。
尽管DETR架构在自然图像数据方面取得了成功,但将其应用于医学影像却面临着挑战。医学图像在多个方面与自然图像显著不同:
高分辨率和小的兴趣区域 医学图像是通常具有非常高分辨率的小而关键的兴趣区域(如病变、肿块和钙化点)。
标准化的采集程序 医学图像是通过非常标准化的程序获取的,导致图像由三个元素组成:感兴趣的体部、周围的体组织,以及体外的黑色像素。相比之下,自然图像的背景可以包含自然界中存在的任何东西。
每张图像中的目标数量较少 医学图像通常专注于狭窄范围内的异常情况,导致每张图像中来自极少数类别的感兴趣目标较少。
小规模和不平衡的数据集 医学影像数据集往往较小,并且表现出更加不平衡的类别分布,因为阳性病例(即患病个体)通常比阴性病例(即健康个体)少得多。
许多高度工程化的DETR家族模型设计选择,如多尺度特征融合、迭代边界框细化等,在自然图像数据上表现良好。然而,当这些模型应用于医学图像时,由于数据特性显著不同,我们需要重新评估这些工程设计选择的有效性。基于医学图像与自然图像之间的差异,我们假设这些设计选择使DETR架构过于复杂,增加了其计算需求和内存消耗,而且可能不适合上述医学影像数据的独特属性。我们假设一个简化且针对医学影像数据特性的模型可能会更高效和准确。
为了验证上述假设,本研究调查了原本用于自然图像的DETR家族设计选择是否仍然对医学影像应用有益或必要。我们使用可变形DETR作为基线模型,并以纽约大学乳腺癌筛查数据集作为一个代表性案例研究。该数据集包含了高分辨率的筛查乳腺X光片,其中含有小病灶,作为上述提到的医学影像特点的代表性数据集。本研究的关键发现包括:
减少编码器层数量并取消多尺度特征融合的模型学习速度更快,同时不会影响检测性能。实际上,这些变化使提高了1.1%,同时加快了50%的训练速度。
在解码器中应用的额外技术,如目标查询初始化方法和迭代边界框细化,在医学影像数据集上的检测性能没有提升,反而导致了下降了0.7%,表明这些技术可能不适用于医学影像任务。
增加目标查询的数量可以提高检测性能,直到某个点为止。但是,对于自然图像数据而言,使用过多的目标查询(例如800个)会导致性能下降2%,原因是假阳性增加。
旨在定位ROI候选目标的设计选择,如目标查询初始化方法、迭代边界框细化和更多的目标查询,并未改善性能,这表明正确分类ROI候选目标是提高性能的关键。
2 DETR的背景介绍
DETR相较于常用的检测模型如Mask R-CNN和YOLO提供了几项优势。其基于Transformer的架构能够学习到比基于CNN的模型更为丰富的特征,端到端的训练方式也提升了优化和性能。然而,DETR面临学习速度慢的问题。为了解决这一问题,一些研究提出了加速学习和提升整体性能的技术。可变形DETR因其在MS COCO数据集上的竞争力表现而脱颖而出。它引入了一个可变形注意力模块,将训练时间减少了10倍,并实现了多尺度特征融合,特别提升了小目标的检测效果。鉴于它在后续研究工作中的广泛采用作为基准,我们选择了可变形DETR作为实验的基线架构。本节详细介绍了DETR和可变形DETR架构的主要组成部分。
DETR DETR结构包括一个主干网络、一个编码器-解码器Transformer和一个预测头,如图2(a)所示。
给定一个输入图像,主干网络f产生一个低分辨率激活映射。此映射进一步通过一个1×1卷积处理,将通道维度C压缩成更小的尺寸d,从而得到图像token 。为了保持原始图像中的空间信息,每个token都与一个位置编码配对,记作。编码器是一个标准的基于注意力机制的Transformer,每一层由一个多头自注意力模块(MHSA)后接一个前馈网络(FFN)组成。通常情况下,DETR编码器包含6层。编码器保留了输入的维度,生成。
解码器接收两个输入:编码后的特征和N个目标查询。目标查询在DETR架构中扮演核心角色。它们是可学习的嵌入,作为图像中潜在目标的占位符。每个目标查询关注于图像的特定区域,并独立地解码成一个边界框预测。每个目标查询是两个可学习嵌入的和:内容嵌入,初始化为零向量,以及位置嵌入,指示每个查询的位置。关于目标查询的更多初始化方法将在第3节中讨论。解码器层包括一个多头自注意力模块,实现查询间的学习,以及多头交叉注意力模块以整合编码器特征,和一个前馈网络。
经过解码器后,每个目标查询通过一个三层的前馈网络和一个线性层分别独立解码成边界框坐标和类别得分。
Deformable DETR 通过引入可变形注意力模块改进了DETR,该模块加速了训练过程并增强了小目标的检测能力。可变形DETR的架构如图2(b)所示。
与标准注意力机制计算所有查询-键对之间的注意力分数不同,对于大小为W×H的特征图会产生(W H)^2对,可变形注意力选择性地为每个查询计算一小部分k<<W H个键的注意力分数。这个子集是通过一个可学习的键采样函数来选择的,使模型能够专注于每个查询最具有信息性的区域。
对于像目标检测这样的密集预测任务,融入更高分辨率的特征图可以显著提高检测性能,特别是对于较小的目标。然而,标准注意力机制的复杂度与tokens数量成二次关系,这使得在多个尺度的特征图上应用变得不可行。可变形注意力机制使得有效的多尺度特征融合成为可能。具体而言,编码器接收来自主干网络最后三层的输出特征图x1, x2, x3,并且一个卷积层生成最低分辨率的特征图x4。所有四个特征图都会经历一个1×1的卷积处理,然后被重塑成维度为d的特征向量序列,记作。每个token都与一个位置嵌入相关联,同时还包括一个层嵌入以识别特征图的层级。
此外,可变形DETR在可变形注意力模块中引入了参考点。在编码器中,每个查询q与一个二维参考点 = [x, y]相关联,表示其在特征图上的位置。键采样函数基于参考点生成k个采样偏移量,从而确定查询的k个键。同样,在解码器中,每个目标查询q的参考点由其位置嵌入的一个线性投影定义。这样,每个目标查询就可以映射到特征图上的一个位置。这种方法使目标查询能够专注于特定区域,显著加快学习速度。
DETR在医学影像中的应用 基于DETR的架构已被广泛应用于各种医学影像任务,通常会进行架构上的调整以提高整体性能。例如,Mathai等人(2022)在DETR上利用边界框融合技术来降低淋巴结检测中的假阳性率。MyopiaDETR(Li等人,2023)采用特征金字塔网络来改善病理性近视病变检测中小目标的检测效果。COTR则在DETR编码器中嵌入卷积层,以加速息肉检测的学习过程。尽管这些工作取得了良好的表现,我们的实验表明,与普遍的理解相反,简化DETR架构可以提高准确性和加速训练。我们发现的一项与此方向一致的工作是Cell-DETR(Prangemeier等人,2020),它也将参数数量减少了十倍,实现了更快的推理速度,同时保持了与最先进基线相当的性能。最后,Garrucho等人(2023)直接应用了可变形DETR于乳腺摄影中的肿块检测。然而,他们的关注点是数据增强方法对其检测性能的影响。尽管有这些进展,对基础DETR设计选择的有效性和相关性的系统性探索仍然不足。
3 方法
3.1 设计选择
在本节中,我们将概述可变形DETR的关键设计选择,这些选择与医学图像的独特特性相关:输入分辨率、编码器层数、多尺度特征融合、目标查询的数量以及两种增强解码过程的技术——查询初始化和迭代边界框细化(IBBR)。我们研究了将这些元素纳入模型设计是否能在医学影像数据上同样程度地提升检测性能,如同它们在自然图像数据集上所做的那样。
输入分辨率 在检测模型中,为了计算效率并满足内存限制,对输入图像进行下采样是一种标准做法。自然图像可以在不失去对于准确预测至关重要的特征(如边缘、形状和纹理)的情况下显著缩小。而许多医学成像模态的数据,如X光图像、CT扫描和全切片图像,至少比这大一个数量级。这些高分辨率的医学图像包含细粒度的细节,如小病灶或组织密度的微小变化,这些都是准确诊断的关键。另一方面,由于高计算需求,不进行任何下采样的处理高分辨率医学图像是不可行的。因此,我们对分辨率为原始尺寸25%至100%的医学图像进行了实验,以考察既能平衡模型精度又能兼顾计算效率和内存使用的最佳输入分辨率。
编码器复杂度 医学图像数据集具有三个显著的特点。首先,由于患有特定疾病的患者数量有限,它们通常比自然图像数据集要小得多。其次,同一数据集内的医学图像通常非常同质化,描绘的是单一的身体部位,如大脑、乳房或胸部,具有均匀的纹理和灰度。此外,虽然自然图像包含数百或数千个目标类别,但医学图像数据集的类别通常少得多。例如,NIH胸部X光图像(14个疾病类别)、DDSM(2个类别)、BraTs(4个类别)。这意味着,总体而言,网络需要建模的数据变化较少。鉴于普遍接受的观点是模型复杂度应与任务复杂度相匹配,我们怀疑更简单、更浅的架构可能更适合这些医学图像数据集,以减轻过拟合并提高训练效率。此外,医学图像中的目标尺寸通常比自然图像中的更为均匀。例如,MS COCO数据集中标准化目标尺寸的标准差为0.16,而在NYU乳腺癌筛查数据集中仅为0.025。这一观察结果促使我们质疑在医学图像中使用多尺度特征融合的必要性,因为这对于检测不同大小的目标更为有利。为了探讨这些假设,我们对可变形DETR的编码器进行了修改实验,包括减少编码器层数和从骨干网络中利用更少尺度的特征图。
目标查询数量 在DETR中,每个目标查询都被单独解码成一个边界框预测。因此,目标查询的总数决定了每张图像预测的边界框数量。大多数DETR模型针对的是像MS COCO这样的自然图像数据集进行优化,单张图像可以包含多达100个目标。因此,DETR模型中的目标查询数量通常设置为300。然而,单张医学图像通常包含少于10个目标,大多数只包含1个或根本没有目标。因此,DETR研究中建议的超参数可能不适合医学图像,调整此数量以适应医学图像数据集变得至关重要。
解码技术 目标查询初始化和迭代边界框细化(IBBR)是许多DETR模型用来促进目标查询解码过程的两种技术。这些方法已被证明能有效提升自然图像数据集上的检测性能,例如在MS COCO数据集上提高了2.4的AP值。本研究旨在评估这些技术对医学数据的适用性。我们测试了三种由Zhang等人(2022)描述的位置和内容嵌入初始化策略。
静态查询 位置嵌入和内容嵌入均被初始化为随机可学习嵌入。这种通用的起点要求模型从头开始学习目标可能位于何处以及哪些特征代表这些目标。尽管提供了最大的灵活性,但这种方法可能导致学习速度较慢,因为模型必须在没有先验知识的情况下发现空间和内容关系。标准的Deformable DETR采用这种方法。
纯查询选择 内容嵌入和位置嵌入都通过选定的编码器特征来初始化。为了选择最可能包含目标的K个编码器特征,模型要么使用区域提议网络,要么将预测头应用于编码器特征。我们的实验采用了后一种方法。这种方法利用了编码器特征中编码的现有知识,直接引导模型实现准确的目标检测,并显著加快了学习过程。
混合查询选择 该方法结合了前两种方法。通过为位置嵌入使用纯查询选择,而为内容嵌入使用静态嵌入,模型既能够通过空间先验了解目标的可能位置,又保留了从头开始学习内容表示的灵活性。DINO表明,在所有三种方法中,混合查询选择方法提供了最佳的模型性能。
IBBR(迭代边界框细化),IBBR 最初是在 Deformable DETR 中引入的,它在每张图像中迭代地更新目标查询的参考点,使其朝向感兴趣的物体方向移动。参考点指导模型的可变形注意力机制,指出应搜索物体的区域。这些参考点在整个图像上随机分布,确保了广泛的覆盖范围,而不依赖于任何关于物体可能所在位置的先验知识。借助 IBBR,这些参考点可以通过每个解码器层逐步向物体靠近,为注意力机制提供更准确的信号。该技术已在 DETR 家族中得到了广泛应用(,并证明能有效加速训练和提高检测性能。
3.2 数据与任务
我们在纽约大学乳腺癌筛查数据集上进行了实验,该数据集具有医学影像数据集的特点。该数据集包含了来自纽约大学朗格健康中心筛查的 141,472 名患者的 229,426 次数字筛查乳腺 X 光检查。每次检查至少包括四张图像,分辨率为 2944 × 1920,涵盖了两个标准筛查视图:前后位(CC)和内外斜位(MLO),左右乳房均有。图 3 展示了一次乳腺 X 光检查的例子。数据集标注有乳房级别的癌症标签,指示活检确认的良性或恶性发现。此外,数据集还提供了可见阳性发现的边界框注释及类别标签(良性或恶性)。整个数据集中共有 985 例恶性发现和 5,556 例良性发现的乳房。数据集被划分为训练集(82%)、验证集(5%)和测试集(13%),确保各子集中良性与恶性病例的比例分布均衡。
3.3 评估指标
本研究重点关注模型检测恶性病变的能力。我们采用平均精度(Average Precision, AP)和自由响应操作特性曲线下的面积(Free-Response Receiver Operating Characteristic curve area, FAUC)作为评估指标,FAUC 是医学影像分析中常用的度量标准。具体来说,我们关注每张图像中假阳性率为 1 时的 FAUC 值,即 FAUC1,这与 Bandos 等人(2009)所描述的方法一致。遵循先前的研究,我们将一个正样本边界框定义为与真实边界框至少有 10% 到 50% 的交并比。这些阈值被认为更适合精确检测小尺寸目标,如癌变病灶。在 IoU 阈值为 0.1 时的 FAUC1 记作 FAUC1 10。按照 COCO 评估指标的记法,我们将在 IoU 阈值为 0.1 时的 AP 记作 AP10。此外,我们报告 IoU 阈值从 0.1 至 0.5,步长为 0.05 的平均 AP,记作 。
为了清晰说明我们的模型检测对象的效果,我们区分了“定位”和“分类”:
定位指的是围绕每个真实目标准确绘制边界框的任务。为了与 FAUC 和 AP 的定义保持一致,如果模型产生的边界框与真实边界框的重叠部分大于 10% 的 IoU,则认为该目标被成功定位。为了量化定位准确性,我们计算模型成功检测到的真实目标所占的比例。假设一张图像中有 m 个真实目标,其中,以及 p 个预测边界框,其中。对于所有预测边界框中真实边界框的最大 IoU 值为。定位准确率 L可表达为:
分类涉及将每个预测框内的目标与正确的类别关联起来。我们通过计算每张图像中预测得分最高的前 10 个预测边界框中成功定位的目标所占的比例来考虑模型的分类准确性。设S是图像中预测得分最高的前 10 个预测边界框的索引子集。考虑分类的定位性能可以表达为:
我们的基线模型是在默认设置下使用 Swin-T Transformer作为主干网络的可变形 DETR。主干网络在同一数据集上预先训练了一个乳腺癌分类任务。所有模型都使用 AdamW 优化器和步进调度器进行了 60 个周期的优化。步进调度器在最后 20 个周期内以 0.1 的因子降低学习率。我们使用随机搜索对剩余的超参数进行了调优。对于每次实验,我们使用不同的随机种子训练了 5 个模型,并报告了它们的性能均值和标准差。
4 结果
我们对五个设计选择进行了实验,包括输入分辨率、编码器层复杂性、多尺度特征融合、目标查询数量以及两种解码技术,所有实验都表明,标准可变形 DETR 的修改并不完全符合医学影像数据集的独特特性。这种不匹配导致了不必要的计算开销和次优性能。
输入分辨率 我们的实验揭示了输入分辨率与检测性能之间存在一定的正相关关系,直到某个阈值为止(表 1)。具体而言,当分辨率比例从四分之一(0.25)提高到一半(0.5)时,性能显著提升,FAUC1 10 提高了 9.8%,AP10 提高了 8.6%,AP10,50 提高了 6.4%。进一步将分辨率提高到 0.75 仍然能提升性能,但增幅较小。然而,使用全分辨率图像会导致所有指标的性能下降。在高分辨率图像中,感兴趣的目标可能具有分散在较大区域内的特征,要求模型整合更广泛区域的信息。而可变形注意力机制仅专注于参考点周围的选定键,这可能导致在高分辨率图像中遗漏必要信息。此前的研究也观察到了非常高分辨率下性能下降的现象。Richter 等(2021)同样挑战了更高分辨率总是意味着更好性能的观点,并指出不同的 CNN 网络有一个首选的输入尺寸。值得注意的是,从四分之一分辨率增加到全分辨率,计算量(GFLOPs)增加了 15 倍。为了平衡训练效率和检测性能,后续实验均在半分辨率图像上进行。
编码器复杂度:编码器层数 在这组实验中,我们研究了编码器层数的影响以及在可变形 DETR 架构中多尺度特征融合的必要性。
由于骨干网络对特征提取有决定性影响,为了得出更具普遍性的结论,我们使用了两种不同的骨干网络进行了这项实验,即 ResNet50 和 Swin-T。对于这两种骨干网络,仅包含1层和3层编码器的模型在所有三个检测指标上的表现与包含6层编码器的模型相当(见表2)。令人印象深刻的是,减少层数导致每秒十亿次浮点运算(GFLOPs)减少了多达40%。此外,当使用Swin-T作为骨干网络时,无编码器模型几乎达到了与其六层对应模型相同的检测性能,所有三个检测指标的下降幅度不到1%,同时GFLOPs几乎减半。
这一观察结果与最近发展的无编码器D2ETR模型相符,该模型在MS COCO数据集上超越了标准的DETR模型。这些发现挑战了传统的观点,即编码器对于DETR模型中的特征转换和多层次特征集成至关重要。我们的结果显示,创建无需编码器的有效DETR架构是可能的,而不会造成显著的性能损失。此外,一个强大的骨干网络可以进一步减少DETR对编码器的依赖,进一步支持更简化设计的潜力。
编码器复杂度:多尺度特征融合。标准的Deformable DETR模型在编码器中对四个尺度的特征图应用注意力机制:其中三个来自骨干网络的最后三层,第四个来自应用于骨干网络最终输出的卷积层,如图2(b)所示。先前的研究表明,使用多尺度特征融合可以提高在MS COCO数据集上的检测性能1.3个百分点,并且在其他数据集上也有类似的效果。我们在表3中的结果显示,仅使用骨干网络最后一层的输出也可以达到相似的性能。这表明,在医学影像中检测异常时,多尺度特征融合可能不是必不可少的。
我们的数据集特性可能是解释这一发现的关键。首先,我们的数据集主要由包含单一目标的图像组成。其次,这些目标的尺寸相对均匀。这些特点与自然图像数据集(如MS COCO)形成对比,后者由于视角、与相机的距离以及不同类别对象之间的固有尺寸差异,目标尺寸变化很大,如图4(c)所示。多尺度特征融合通过利用不同尺度的特征图,使模型能够对这种尺寸变化敏感,每个特征图捕捉到不同分辨率下的细节。然而,我们的数据集更加同质化,图像中包含的是尺寸相近的单个目标(图4(b))。对于这样的数据,多尺度特征融合带来的好处并不明显。图4(a)展示了两个数据集之间目标尺寸分布的对比。在我们的数据集中,大多数图像只包含一个目标,而且大多数目标占据整个图像的大约1%的面积,而MS COCO数据集则表现出目标尺寸和每幅图像中目标数量的更大变化。因此,在一个同质化的数据集中,多尺度特征融合所带来的额外复杂性可能不会转化为更好的性能。
目标查询数量 图5(a)-(c)展示了将目标查询数量从5增加到500对三个检测指标的影响。当目标查询数量从5增加到100时,检测性能持续提升。然而,超过这个数量后并不会带来额外的好处,甚至可能会轻微损害性能。图5(d)清晰地显示了随着查询数量的增加,定位性能L(如方程1所定义)得到改善。但是,更好的定位并不一定意味着整体检测性能的提高,正如Ltop10(参见方程2)所指出的那样,即正确定位的目标同时也在前10名分类得分中的比例。尽管模型能够正确识别更多的真实目标,但它给这些目标分配了较低的分类得分,导致在前10名边界框中排名的目标较少。
我们推测,更多的目标查询增加了定位假阳性的机会。更多的目标查询扩展了模型的搜索空间,使其对细微模式或纹理的变化更加敏感,这些变化可能类似于正类目标的特征。这些假阳性导致真阳性被排在更低的位置。总而言之,虽然更多的目标查询提高了检测到目标的机会,但也引入了将无关实体误认为兴趣目标的风险,从而对模型的整体性能产生负面影响。这种现象在医学影像数据集中可能更为严重,因为在这种数据集中,图像内的目标显著较少(通常只有一个目标),增加了假阳性压倒真阳性的可能性。
解码技术 我们在简化模型中实现了两种在DETR系列中常用的解码技术,该模型具有3层编码器和1个特征图:查询初始化方法和迭代边界框精炼(IBBF)。令人惊讶的是,实证结果表明,这两种技术在所有三个指标上均未显著提升检测性能,详见表4。基于之前的分析,我们通过评估L和Ltop10来分别检查模型的定位和分类性能。我们发现,虽然这些技术增强了定位性能,但它们对分类性能产生了不利影响,如图6所示。
我们在图7中分别可视化了定位和分类的训练损失和验证损失。定位损失包括IoU损失和边界框回归损失,而分类损失是对所有预测框的二元交叉熵损失。图表揭示,装备了任一解码技术的模型比没有这些技术的模型更容易过拟合训练数据,特别是在分类损失方面,如图7所示。这种过拟合很可能是造成分类性能下降的原因。我们推测这是由于我们的数据集中正类目标的数量显著较少所致。
案例可视化 最后,为了更好地理解哪些测试样例对我们模型来说是容易的,哪些是困难的,我们可视化了一些样例及其分类得分。图8和图9分别展示了模型赋予恶性物体高恶性评分(评分≥0.8)和低评分(评分≤0.1)的图像。我们观察到,模型在所有图像中都能正确地定位异常物体。然而,模型倾向于给那些高密度、边界非规则、不明确或不圆滑的肿块赋予高评分,这些特征通常是人类肉眼判断恶性肿瘤的迹象。相反,对于低密度且边界清晰的肿块,模型通常会给出低评分,这类肿块很容易与良性病例混淆(Lee等人,2018)。
5 总结
在这项研究中,我们调查了可变形DETR(Deformable DETR)中常见设计选择对医学图像目标检测的影响,重点放在NYU乳腺癌筛查数据集上。我们发现,所实验的所有设计选择都需要重新考虑,而更简单的架构通常会在医学数据集上带来更好的性能。我们的结果进一步表明,虽然模型能够有效识别异常组织,但在区分良性与恶性病变方面存在困难,并且倾向于给后者分配较高的分类得分。这一问题部分源于阳性病例的比例相对较小,因为只有大约10%的图像包含阳性对象。部分原因是自然图像数据集中常用的分类视觉特征,如物体大小、形状和颜色,在医学图像中辨别力较低。例如,我们图像中的恶性病变往往缺乏明显的边界,尺寸均匀,并以灰度呈现。
未来的研究应优先开发适用于医学影像的细微特征提取技术,包括纹理变化、密度变化、不规则边界以及微钙化等。此外,探索能够高效处理全分辨率图像的架构设计至关重要,这使得模型能够在关注相关信息区域的同时忽略大量的背景区域。此外,实施正则化方法以减轻分类任务中的过拟合现象,特别是在阳性病例有限的数据集中,对于提高模型性能至关重要。
—END—
论文链接:https://arxiv.org/pdf/2405.17677
请长按或扫描二维码关注本公众号
喜欢的话,请给我个在看吧!