Automatic Head and Neck Tumor Segmentation in PET/CT with Scale Attention Network(HECKTOR2020第四名)

Automatic Head and Neck Tumor Segmentation in PET/CT with Scale Attention Network
HECKTOR2020第四名
基于尺度注意力网络的PET/CT头颈部肿瘤自动分割

Abstract

在头颈部肿瘤的检测、诊断、预后、治疗计划和评估中,自动分割是提取定量成像生物标志物的重要步骤,也是一个具有挑战性的步骤。2020年头颈部肿瘤分割挑战赛(HECKTOR 2020)为比较FDG-PET和CT图像上口咽部主要大体目标体积(GTV)的不同自动分割算法提供了一个通用平台。我们参与了图像分割的挑战,开发了一个基于编解码器架构的全自动分割网络。为了更好地整合不同尺度上的信息,我们提出了一种结合不同尺度特征地图的低层细节和高层语义的动态尺度注意机制。该框架使用HECKTOR2020提供的201个挑战训练案例进行训练,通过交叉验证,平均骰子相似系数达到0.7505。通过对53个测试用例的测试,我们的模型获得了0.7318、0.7851和0.7319的平均DSC值、0.7851的准确率和0.7319的召回率,这使得我们的方法在挑战中排在第四位(ID:Deepth X)。

Introduction

头颈部(H&N)癌症是世界上最常见的癌症之一(发病率居第五位)[1]。放疗(RT)联合化疗是不能手术的H&N癌患者的标准治疗方法[2]。然而,研究表明,在治疗后的头两年,高达40%的患者会发生局部失败[3]。为了在治疗前识别预后较差的患者,最近提出了几项放射学研究,以利用从诊断和治疗过程中获得的高维成像数据中提取的大量定量特征。虽然这些研究显示了有希望的结果,但它们的推广性能还需要在大的患者队列中进一步验证。然而,目前肿瘤学家通过同时检查PET和CT图像来描述原发肿瘤和淋巴结转移,这在扩大到一个庞大的患者群体时是不切实际的,而且容易出错。此外,放射肿瘤学家在设计放射治疗计划时还需要手动描绘治疗靶点和危险器官,这很耗时,而且会受到手术者间和操作员内差异的影响[4]。因此,自动分割方法在帮助临床医生更好地检测、诊断、预后、治疗计划以及评估H&N癌方面有很大的需求。
头颈部肿瘤分割挑战(HECKTOR)[5,6]旨在通过提供包括201例模型训练和53例测试的大型PET/CT数据集,加速口咽癌H&N原发肿瘤自动分割的可靠方法的研究和开发,如图1所示。对于训练案例,多位放射肿瘤学家直接在PET/CT研究的CT上(31%的患者)或在专门用于治疗计划的不同CT扫描上注释基本事实(31%的患者)。而测试案例则直接标注在PET/CT图像上。这些个案来自五个不同的机构,其中四个(CHGJ、CHMR、CHUM和CHUS)将用于培训,其余一个(CHUV)将用于检测。每个病例都包括一套共同注册的PET-CT以及原发性总肿瘤体积(GTVt)注释。还提供了一个边界框以使分割算法能够聚焦于GTVt附近的感兴趣体积(VOI)[8]。这些图像被重新采样到1×1×1 mm的各向同性分辨率,然后被裁剪到144×144×144的体积大小。评估将基于骰子相似系数(DSC),该系数仅在原始CT分辨率下的这些边界框内计算。
图1

Related Work

虽然卷积神经网络已经成功地应用于各种生物医学图像分割任务中,但深卷积神经网络在PET/CT图像肿瘤自动分割中的应用研究还很少。在[9]中,Moe et al提出了一种基于二维U-Net结构的PETCT分割算法,用于勾画原发灶和转移性淋巴结。他们的模型接受了152名患者的训练,并在40名患者上进行了测试。Andrearczyk等人在[5]中通过研究基于V-Net架构的几种分割策略,对202名患者的公开数据集进行了研究,扩展了这项工作。赵等人在[10]中在84例肺癌患者的临床数据集上,采用多模态完全卷积网络(FCN)[12]对PET-CT图像中的肿瘤进行共分割,在[11]中钟等人针对60例非小细胞肺癌(NSCLC)患者的PET/CT图像,提出了一种由两个耦合的3D U-Net组成的同时共分割肿瘤的分割方法。
U-Net[13]及其变体在PET-CT自动分割中的成功在很大程度上归功于跳跃连接设计,该设计允许将编码路径中的高分辨率特征用作解码路径中卷积层的附加输入,从而恢复图像分割的精细细节。虽然目前的U-Net结构直观,但当编码路径中存在多个尺度特征地图时,限制了同一尺度下的特征融合。研究表明,不同尺度的特征地图通常携带有不同的信息,==低层特征代表详细的空间信息,高层特征捕捉目标位置等语义信息。==因此在现有的U-Net体系结构中,按尺度进行特征融合可能不能充分利用全尺度信息。
为了充分利用多尺度信息,我们提出了一种新的编解码器网络结构–尺度注意力网络(SA-Net),通过用全尺度跳跃连接代替U-Net中的尺度跳跃连接,重新设计了编解码通道之间的互联。这使得SA-Net能够将低层细节和高层语义信息合并到一个统一的框架中。为了突出重要的尺度,我们在SA-Net中引入了注意机制[14,15],当模型学习时,每个特征通道在每个尺度上的权重将被自适应地调整,以强调重要的尺度,而抑制不重要的尺度。图2显示了SA-NET的总体架构。
图2

Methods
Overall Network Structure

SA-Net采用典型的编解码结构,采用非对称的较大编码路径学习代表性特征,采用较小的解码路径恢复原始分辨率下的分割掩码。将不同尺度的编码块的输出合并到尺度关注块(SA-BLOCK)中,学习和选择具有全尺度信息的特征。由于GPU内存的限制,我们将输入的图像从144×144×144转换到128×128×128,并将每个患者的PET和CT图像拼接成一个双通道张量,得到2×128×128×128维的SA-Net的输入。网络输出是大小为1×128×128×128的MAP,其中每个体素值表示相应体素属于肿瘤目标的概率。

Encoding Pathway

编码路径建立在ResNet[16]块上,其中每个块由两个卷积-归一化-RELU层组成,其后是附加的同一性跳过连接。在我们的研究中,我们将批处理大小保持为1,以便为模型的深度和宽度分配更多的GPU内存资源,因此,我们使用实例归一化(Instance Normalization)即每组一个特征通道的组归一化[21],已经证明在批处理大小较小时比批归一化具有更好的性能。为了进一步提高模型的表示能力,我们在每个折减比r=4的残差块上增加了一个SE模块[14],以形成一个ResSE块。初始比例包括一个ResSE块,初始特征数(宽度)为24。然后,我们在相邻比例尺级别的第一个ResSE块的第一卷积层使用步长(步长=2)卷积,逐步将特征地图维度(特征图大小)减半,同时使特征宽度(通道数)加倍。所有剩余的尺度都包括两个Resse块,编码路径的终点尺寸为384×8×8×8

Decoding Pathway

解码路径遵循与编码路径相反的模式,但在每个空间尺度上只有一个ResSE块。在每个尺度开始时,我们使用步长为2的转置卷积将特征映射维数加倍,并将特征宽度减小至1/2,然后将上采样的特征映射添加到SA-block的输出中。为了减少GPU的内存消耗,方便信息的流动,我们在编码和解码路径之间采用求和而不是级联的方式进行信息融合。解码路径的端点具有与原始输入张量相同的空间维度,经过1×1×1卷积和Sigmoid函数后,其特征宽度减小到1。
为了规范模型训练,强化中、低层块学习区别性特征,我们在解码路径的各个中间尺度上引入了深度监督。每个深度监督子网使用1×1×1卷积来减小特征宽度,随后是三线性上采样层,使得它们具有与输出相同的空间维度,然后应用Sigmoid函数来获得额外的密集预测。这些深度监督子网直接连接到损失函数,以进一步改善梯度流传播。

Scale Attention Block

该注意块由从编码路径到解码路径的全尺度跳跃连接组成,每个解码层融合来自所有编码层的输出特征图,以在全尺度上同时捕捉细粒度细节和粗粒度语义。如图3所示,SA块的第一阶段是将来自编码路径的不同尺度的输入特征地图相加,表示为{Se,e=1,…,N},其中N是除了最后一个块(在本工作中为N=4)之外的编码路径中的总尺度数,在将它们变换成具有相同维度的特征地图之后,即,Sd=Σfed(Se)。这里,e和d分别是编码和解码路径上的尺度级别。变换函数fed(Se)如下确定。如果e<d,则通过2^ (d−e)次Maxpool后紧接着Conv-Norm-RELU块来进行下采样Se;如果e=d,则馈送fed(Se)=Se;如果e<d,则fed(Se)在Conv-Norm-RELU块之后通过三线性上采样来馈送。对于Sd,使用spatial pooling(空间池化)来平均每个特征以形成信息嵌入张量Gd∈R^ Cd,其中Cd是尺度d中的特征通道数。然后执行1−to−N压缩激励,其中嵌入Gd的全局特征通过一个缩减率为r的全卷积层被压缩成一个紧凑的特征gd∈R^ (Cd/r),然后对每个尺度激励应用另外N个具有Sigmoid函数的全连通层来重新校准该尺度上的特征通道。最后,使用Softmax函数对每个特征通道中每个尺度的贡献进行归一化,在We∈R^ Cd时为每个通道产生尺度特定权重向量,尺度关注块的最终输出是Sd~=ΣWe·fed(Se)
图3

Implementation

我们的框架是使用Pytorch包用Python实现的。在给定边界框内的感兴趣体积(VOI)上执行所有以下步骤。在预处理方面,我们将CT数截断到**[−125,225]Hu以剔除不相关信息,然后用整个训练数据集中GTV内HU值的均值和标准差对CT图像进行归一化**。对于PET图像,我们简单地将每个患者单独归一化,方法是减去平均值,再除以体内图像的标准差。该模型的训练样本为128×128×128个体素,批大小为1。在本工作中,我们使用了我们在以前的研究[17-20]中提出的Jaccard距离作为损失函数。它被定义为
公式1
中,t ijk∈{0,1}是体素xijk的实际类别,对于肿瘤,tijk=1,对于背景,tijk=0,并且pijk是来自SA-NET的相应输出。?用来保证数值计算的稳定性。
采用Adam随机优化方法,对整个网络进行了300次从头开始的迭代。将初始学习率设置为0.003,当验证损失停止减少时,采用学习率衰减和提前停止策略。特别地,我们在每次迭代中持续监控验证损失(L(有效))。我们在前150次迭代中保持学习率不变,但是当L(有效)在最后30次迭代中停止改进时,学习率下降了0.3倍。记录产生最佳L(有效)的模型用于模型推理。
为了减少过拟合,我们以0.5的概率在左/右、上/下、前/后三个方向上随机翻转输入块,以进行数据增强。其他几何增强包括将输入图像旋转[−10,10]度之间的随机角度,并按从[0.91.1]中随机选择的因子对其进行缩放。我们还根据从[0.9,1.1]中随机选择的因子调整了每个图像输入通道的对比度。我们在训练数据集上使用了5次交叉验证来评估模型的性能,其中还实验确定了一些超参数,如特征宽度和输入维数。所有的实验都是在NVIDIA GTX 1080TI GPU上进行的,内存为11 GB。
我们采用两种不同的策略将144×144×144个VOI转换为128×128×128个地块。在第一种方法(比赛提供的方法)中,我们在训练和测试阶段简单地调整原始VOI的大小,其中图像数据使用线性插值进行各向同性重采样,而二值标记使用近邻插值进行重采样。在另一种方法中,我们在训练过程中从VOI中随机提取一个大小为128×128×128的小块,然后应用滑动窗口从VOI中提取8个小块(每个维度2个窗口),并对重叠区域的模型输出进行平均,然后应用0.5的阈值得到二值掩模。

Results

我们使用HECKTOR 2020挑战赛提供的训练集对SA-Net进行训练,并通过5次交叉验证来评估其在训练集上的性能。表1显示了每个折叠的DSC分割结果。与表2中使用标准U-Net跳跃连接的模型获得的结果相比,所提出的SA-Net在Patching和Resizing大小方面分别提高了3.2%和1.3%的分割性能。
表1和表2
在53个挑战测试用例上应用训练好的模型时,采用了装袋式集成策略,将这10个模型的输出组合在一起,进一步提高了分割性能,平均分割率、准确率和召回率分别达到0.7318、0.7851和0.7319,使我们的方法在挑战中排名第四。

Summary

在这项工作中,我们提出了一种全自动分割模型,用于从PET和CT图像中分割头颈部肿瘤。我们的SA-Net将vanilla U-Net中相同尺度之间的长距离跳跃连接替换为全尺度跳跃连接,以便最大限度地利用全尺度特征地图进行精确分割。引入注意力机制,自适应调整各尺度特征的权重,突出重要尺度,抑制次要尺度。与基于尺度跳跃连接和特征级联的Vanilla U-Net结构相比,提出的尺度注意块不仅将分割性能提高了2.25%,而且将可训练参数的数量从17.8M(UNET)减少到16.5M(SA-Net),从而在有限的GPU资源下达到了最好的分割效果。此外,所提出的SA-Net可以很容易地扩展到其他分割任务。在没有花哨的情况下,它已经在脑瘤分割(BLAT)挑战赛20201中获得了第三名。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值