Fully Automated Gross Tumor Volume Delineation From PET in
Head and Neck Cancer Using Deep Learning Algorithms
原文链接
中科院SCI分区:三区(医学)
总结:数据集PET图像 三种深度学习算法(Dense-Net、NN-UNet、Res-Net) 8种损失函数(Dice loss、广义Wasserstein Dice loss、Dice+XEnt loss、广义Dice loss、交叉熵、敏感性-特异性和Tversky)
Abstract
Purpose
自动化、准确和健壮的大体肿瘤体积(GTV)分割算法的可用性对于头颈癌(HNC)患者的治疗至关重要。在这项工作中,我们使用一个全面的训练集评估了3种最先进的深度学习算法结合8种不同的损失函数用于PET图像分割,并在HNC患者的外部验证集上评估了它的性能。
Patients and Methods:
470例HNC患者的18F-FDG PET/CT图像被用于训练(340例患者)、验证(30例患者)和测试(100例来自不同中心的100例患者)。将PET图像强度转换为SUV,并使用整个数据集的SUVmax在(0-1)范围内进行归一化。PET图像被剪切到12×12×12cm3的子体积,各向同性体素间距为3×3×3mm3,包含整个肿瘤和包括淋巴结在内的邻近背景。我们使用了不同的数据增强方法,包括旋转(−15度,+15度)、缩放(−20%,20%)、随机翻转(3个轴)和弹性变形(σ=1,变形比=0.70),以增加训练集的数量。我们使用了三种最新的网络,包括Dense-VNet、NN-UNet和Res-Net。是用来八种不同的损失函数,包括Dice loss、广义Wasserstein Dice loss、Dice+XEnt loss、广义Dice loss、交叉熵、敏感性-特异性和Tversky。总体而言,建成了28个不同的网络。标准图像分割度量,包括Dice相似性、图像衍生PET度量、一阶和形状放射学特征被用于评估这些算法的性能。
Results
就Dice系数(平均值±标准差)而言,通过Res-Net的交叉熵(0.86±0.05;95%置信区间[CI],0.85–0.87)、Dense-VNet(0.85±0.058;95%置信区间,0.84–0.86)和NN-UNet的Dice+XEnt(0.87±0.05;95%置信区间,0.86–0.88)获得最佳结果。3个网络之间的差异无统计学意义(P>0.05)。在Dice系数大于0.84的网络中,SUVmax量化的相对误差百分比(RE%)小于5%,而具有交叉熵损失的Res-Net实现了较低的RE%(0.41%)。对于最大三维直径和球形形状特征,所有网络都实现了RE≤5%及≤10%,反映出较小的可变性。
Conclusions
深度学习算法在HNC PET图像的GTV自动描绘方面表现出良好的性能。当使用不同的网络时,不同的损失函数表现出竞争性,对于Res网络、Dense-VNet和NN-UNet的Dice+XEnt,交叉熵成为GTV描绘的可靠网络。由于基于深度学习的算法中出现异常值,临床部署时应谨慎。
Keywords
PET, segmentation, head and neck,quantification, deep learning
(Clin Nucl Med2021;00: 00–00)
Introduction
PET使用各种分子成像探针,通常用于临床肿瘤学中的各种任务,包括诊断和恶性病变检测、分期和重新定位,以及监测治疗反应。临床和研究环境中使用了各种半定量和定量图像衍生PET指标,以补充视觉解释。这包括简单的指标,如SUV和从PET图像中提取的高级定量指标。体内代谢和生理过程的量化为疾病的临床诊断/预后提供了有价值的信息。临床上对计算代谢肿瘤体积(MTV)从而计算总病变糖酵解(TLG)或计划外照射治疗的肿瘤总体积(GTV)的描绘提出了很高的要求。手动描绘GTV非常耗时,并且容易出现观察者间/观察者内的变异,并且取决于医生经验。此外,由于PET图像中的噪声性质、较差的空间分辨率以及由此产生的部分体积效应,精确描绘也具有挑战性。
传统算法,包括自适应迭代阈值、活动轮廓、区域生长、k均值迭代聚类、模糊c均值迭代聚类、高斯混合模型、随机游走、分水岭变换、基于图形和基于马尔可夫随机场(MRF)的技术,已开发用于PET图像分割。然而,这些算法在临床环境中的部署面临着各种挑战,因为它们通常需要用户输入来定义肿瘤的背景或前景(感兴趣的种子或体积),设置特定于每个患者的参数,以及关于临床指征、扫描仪性能、,以及临床采集和处理协议。从PET图像中勾画GTV的各种策略已经被开发出来;然而,由于头部和颈部区域解剖结构的异质性,以及邻近代谢活跃区域(如淋巴结)的存在,传统算法通常无法获得良好的结果。有效的头颈癌(HNC)患者管理迫切需要提供一种自动、准确和鲁棒的GTV分割算法。
深度学习是机器学习算法的一个分支,能够一步完成特征提取、选择和分类。机器/深度学习算法已应用于PET的各种应用,包括图像重建、衰减和散射校正、图像去噪、减少采集时间和基于体素的剂量测定。大多数以前的研究表明,与传统算法相比,基于深度学习的算法提供了同等或更可靠的结果。许多机器学习算法已经被开发用于医学图像的分割。在PET图像分割方面,对K-最近邻、决策树、支持向量机和随机机器学习算法进行了深入研究。然而,这些技术需要手工进行特征提取和特征选择,因此限制了它们的准确性和鲁棒性。
有越来越多的文献报道使用深度学习算法进行PET图像分割。Leung等人将二维(2D)U-Net结构应用于模拟肺部PET图像,以微调患者图像的算法。这种方法使得小肿瘤分割的精度更高,多扫描数据集的结果更可靠、更普遍。Fu等人提出了一种多模式注意模块,该模块使用U-Net网络主干,通过利用生理和解剖信息来分割肺部肿瘤。Zhong等人进行的另一项从PET和CT图像同时分割非小细胞肺癌肿瘤的研究表明,他们提出的三维(3D)深度学习算法优于传统算法。类似地,其他研究集中于使用解剖先验和深度学习算法结合的PET/CT图像对宫颈癌进行量化,报告了分割精度的提高。
在主要关注HNC恶性病变PET图像分割的研究中,Guo等人48开发了一种用于多模式(PET和CT)图像分割的3D深卷积网络,其目标是在放疗计划中的潜在应用。Jin等人利用PET和CT图像的2个流链深度学习融合,建立了食管GTV描绘的全自动分割。Andrearczyk等人研究了分别使用PET和CT图像的2D和3D V-Net以及早期和晚期融合的多通道方式对HNC肿瘤和转移灶进行自动分割。他们报告说,多通道输入提高了HNC患者的分割精度。Afshari等人提出了一种弱监督卷积神经网络,该网络显著提高了分割性能。Huang等人使用深度学习算法对PET/CT图像进行了双中心分割研究,强调了分割过程的效率和通用性。
为应对PET图像分割的挑战,开展了大量研究、任务组和国际医学成像竞赛。在这项工作中,我们使用一个大型训练集评估了3种最先进的深度学习PET图像分割算法以及8种不同的损失函数,并评估了它们在HNC患者外部验证集上的性能。
Patients and Methods
PET/CT Data Acquisition and Description
本研究对从癌症影像档案(TCIA)的开源数据库(430名患者)和日内瓦大学医院(HUG)收集的数据(40名患者)中获得的HNC患者的PET图像进行研究。由于一些技术问题,例如图像噪声、伪影、图像缺失和图像配准错误,一些患者被排除在TCIA数据集中。Prior等人、Gevaert等人、Clark等人、Bakr等人、Vallières等人给出了TCIA数据集采用的采集和重建协议。以下协议用于采集HUG数据集。
注射的18F-FDG活性在范围内(119-276 MBq;平均201 MBq),而注射和数据采集之间的时间在范围内(37-117分钟;平均88分钟)。采用带飞行时间和点扩散函数建模的有序子集期望最大化迭代算法进行PET图像重建。所有PET研究均进行了基于CT的衰减和康普顿散射校正。
Manual Image Segmentation and Preprocessing
由经验丰富的核医学医师使用OSIRIX软件在PET图像上手动描绘所有GTV。将60个PET图像强度转换为SUV,并使用所用数据集的最大值在0和1之间归一化。为了产生旋转不变的数据集,PET图像的预处理通过插值到3×3×3mm3的各向同性体素间距来执行。为了在矩阵大小和体素大小方面创建统一的数据集并处理计算障碍,我们将PET图像裁剪为12×12×12 cm3的子体积,包含整个肿瘤和背景,包括淋巴结。
Neural Networks
我们实现了3种最先进的基于深度学习的分割算法,包括Res-Net、Dense-VNet、nn-UNet。每个网络的架构如图1所示。Res-Net由20层组成,包括3个6级层,具有不同的膨胀因子0、2和4,以提取不同的图像特征,其中每2层通过残差连接连接。Dense-VNet是一个完全卷积网络,具有3个稠密特征堆栈块(用于信息流和降低网络参数),向下采样到下一个,并与向上采样块具有跳跃连接。NN-UNet或no-new-UNet是一种改进的标准编码器-解码器网络(U-Net体系结构),具有跳跃连接。
图1本研究评估了3种神经网络结构的流程图,包括Res-Net、Dense-VNet和NN-UNet。
Loss Functions
由于深度学习算法中的损失函数激励网络进行训练,因此损失函数的选择对于深度语义分割至关重要,它决定了图像分割的性能。为每个网络实现了8种不同的已知损耗函数,包括Dice、Dice no square(Dice NS)、Dice+XEnt、交叉熵、广义Dice Loss (GDSC)、灵敏度特异性、Tversky和广义Wasserstein Dice损耗(WGDL)。补充材料中提供了有关损失函数的更多详细信息,http://links. lww.com/CNM/A336。
Training
通过3个网络和8个损耗函数的组合,总共构建了28个不同的网络。470例HNC患者的18F-FDG PET图像,其中手动定义(参考)GTV用作这些算法的训练(来自TCIA的340名患者)、验证(来自TCIA的30名患者)和测试集(来自不同中心的100名患者)。SUV单元中的PET图像作为网络输入,以生成相应的GTV二进制掩模。
Data Augmentation
为了增加训练集的数量以避免过度拟合并提高网络的通用性,我们使用了不同的数据扩充方法,包括旋转(−15度,15度),缩放(−20%,20%),随机翻转(3个轴)和弹性变形(σ=1,与变形的比例=0.7)。
Quantitative Evaluation
所有测试均采用来自不同中心的100名患者进行,分别为TCIA 1(30名患者)、TCIA 2(30名患者)和HUG(40名患者)。对作为参考标准的手动描绘进行评估。计算标准分割指标,包括Dice系数、Jaccard、假阴性率、假阳性率、体积相似性、平均值和表面距离的标准偏差(见补充材料中的等式http://links.www.lww.com/CNM/A336)。
Metabolic Activity Intensity and Shape Analysis(代谢活动强度和形状分析)
我们计算了常规临床相关图像衍生PET指标,包括SUVmax、SUVMean和SUVmedian。根据常规临床PET量化参数,我们提取了一阶放射特征,包括10%和90%,能量,四分位间距,峰度,平均绝对偏差,范围,稳健平均绝对偏差,均方根,总能量和方差。形状放射特征包括延伸率、平整度、最小轴长度、长轴长度、最大2D直径列、最大2D直径行、最大2D直径切片、最大3D直径、短轴长度、球形度、表面积和表面体积比(见补充材料,http://links. www.lww.com/CNM/A336)。所有特征提取均根据图像生物标志物标准化倡议进行。我们使用以下公式计算手动分割的平均相对误差:
Statistical Analysis
我们使用StudentTest统计分析比较了不同的网络,并报告了不同指标的平均值±SD和95%置信区间(CI)。所有统计分析均使用THERA软件进行。
Results
图2显示了不同网络和损失函数的GTV 3D渲染体积的2个不同视图的代表性示例,以及用于临床研究的每个肿瘤的手动GTV分割。补充图1-3,http://links.lww.com/CNM/A336,提供了不同患者3D GTV的其他示例。图3显示了测试集中不同患者的二维轴向视图。图4描述了图3所示的GTV的缩放版本。如两幅图所示,由不同网络生成的分割与GTV上定义的手动分割非常一致,恶性病变呈现不同的大小、纹理和对比度。补充图4-30,http://links. lww.com/CNM/A336,说明了外部验证集中不同患者通过不同网络实现的分割结果。
图2 使用不同的网络和损失函数从HUG数据库中为临床研究手动和自动分割恶性病变的两种不同3D视图。
图3 TCIA数据库和我们研究所的不同临床研究的不同网络Res-Net(交叉熵)、NN-UNET(Dice+XEnt)和Dense-VNet(交叉熵)的手动描绘病变和自动分割输出的二维视图。
图4 图3所示的不同临床研究中,手动描绘病变和不同网络Res-Net(交叉熵)、nn-UNET(Dice+XEnt)和Dense-VNet(交叉熵)分割输出的放大2D视图。
表1和表2总结了不同网络和损耗函数的PET图像分割性能指标(平均值±SD和95%CI)。图5显示了各种网络在Dice系数方面的比较。从表1和表2中报告的结果可以看出,交叉熵损失函数产生了最高的Dice系数(平均值±SD)(0.85±0.05;95%CI,0.84–0.86)和Jaccard指数(0.75±0.08;95%CI,0.73–0.76)以及最低的表面距离。Tversky损失提供了几乎相同的结果,Dice系数为(0.85±0.06;95%可信区间为0.84–0.86)和Jaccard指数为(0.75±0.09;95%可信区间为0.73–0.77)。没有证据表明交叉熵和Tversky之间存在统计上的显著差异(P=0.70),对于Dens-VNet网络,这两种损失函数明显优于其他损失函数(P<0.05)。
图5 根据Dice系数比较不同模型(Pvalues)。以人工分割为标准。
表1 不同网络和损失函数的定量图像分割性能指标(Mean±SD)总结
表2 不同网络和损失函数下定量图像分割性能指标95%可信区间的上下界
对于Res-Net网络,就Dice系数(0.86±0.05;95%CI,0.85-0.87)和Jaccard指数(0.76±0.08;95%CI,0.75-0.78)而言,交叉熵损失导致性能最高。在Res-Net中,除敏感性特异性损失函数显示最不令人满意的结果(0.72±0.09;95%CI,0.70-0.74)外,所有损失函数的性能几乎相似,没有证据表明它们之间存在统计学上的显着差异。从表1和表2可以看出,对于NN-UNet,Dice+XEnt损失函数产生最高的Dice系数(0.87±0.05;95%CI,0.86-0.88)和Jaccard指数(0.77±0.07;95%CI,0.75-0.78),其次是Tversky,Dice系数为0.86±0.06(95%CI,0.85-0.87),Jaccard指数为0.76±0.08(95%CI,0.74-0.78)。两种损失函数之间没有统计学显着性差异的证据(P=0.4 8)。除了灵敏度-特异性损失函数外,其余损失函数达到了同样的准确度。
据观察,灵敏度-特异性损失函数导致不同网络的性能最低。
不同的损耗函数对不同的网络具有竞争性。Res-Net和Dense-VNet的交叉熵以及NN-UNet的Dice+XEnt获得了最佳结果,其中3个网络之间的差异在统计学上不显著。
图6描述了传统图像衍生PET度量以及不同网络和损耗函数的一阶和形状特征百分比相对误差的结果。这表明,几乎所有正确分割区域的网络中,SUVmaxis的GTVas RE的最大值都小于1%。在Dice系数大于0的网络中,SUVMAX的相对误差百分比小于5%。84通过具有交叉熵损失的Res网络获得了较低的RE%(0.41%)。对于形状特征,可获得最大3D直径和球形度≤5%及≤分别为10%,这在典型的放射组学研究中被认为是非常小且变异性很小的。
图6 不同网络和损耗函数的放射特征的平均相对误差(MRE%)。
图7显示了调查网络未能正确划分GTV的代表性异常值。如图所示,肿瘤的低摄取、背景中的高摄取以及GTV的不规则和稀疏形状导致异常值。异常值出现的频率不到总病例数的5%(4例)。额外的异常值示例见补充图31-57,http://links.lww.com/CNM/A336。
图7 在观察到故障导致异常值的不同情况下,不同网络实现的手动和自动分割的二维视图
Discussion
这项工作旨在评估使用深度学习算法从HNC患者PET图像全自动GTV描绘的潜力。本研究旨在评估3种最先进的图像分割算法,结合各种流行的损失函数,并使用成熟的指标评估它们在测试数据集上的性能。这项研究的结果表明,不同的损耗函数在不同的网络中表现出竞争性。对于Res-Net和Dense-VNet,交叉熵和对于NN-UNet,Dice +XEnt也获得了最好的结果。3个网络之间的差异无统计学意义。
已开展医学图像计算和计算机辅助干预挑战,以解决自动PET图像分割算法的潜力。在这次挑战中,美国医学物理学家协会211工作组提出的指导方针得到了谨慎的遵循。9本研究包括176张模拟、实验模型和临床研究的PET图像,这些研究分为17个训练数据集和157个测试数据集。在此框架下评估了各种策略,其中基于卷积神经网络的算法产生了最高的性能(Dice=0.80),显著优于传统技术(12种中的9种),包括K均值(Dice=0.79)、高斯混合模型(Dice=0.78)和模糊C均值(Dice=0.73)算法。
Afshari等人设计了一种新的损失函数,该函数从以前的分割技术中得到启发,动态地结合有监督和无监督的成分。与仅使用边界盒训练的弱监督算法相比,该算法的Dice索引提高了30%。Andrearczyk等分别对来自4个中心的202名HNC患者的PET和CT图像进行2D和3D V-Net评估,并采用多通道方法对其进行评估,并使用单中心剔除法评估其表现。他们报告说,CT和PET图像的Dice系数分别为0.48和0.58,对于2D和3D V-Net算法的晚期融合方法,Dice系数分别提高到0.59和0.60。
Huang等设计了一项双中心研究,使用U-Net架构从HNC患者的PET/CT图像中进行病变分割。培训和评估涉及22名患者,采用留一验证方法,同时使用包含PET和CT图像的双通道输入。他们报告GTV划定的Dice系数为0.73。Guo等[48]提出了一种用于PET和CT图像分割的3D多模态Dense-Net,使用140/35临床研究进行训练/验证,并对由75名HNC患者组成的额外外部组进行进一步测试。他们报告所提出的架构的Dice为0.73,因此在使用多模态图像时表现优于3D UNet(Dice=0.71),而仅使用CT和PET图像时Dice分别为0.32和0.67。我们的工作利用了Dense-VNet架构中实现的密集块,与之前的仅PET研究相比,实现了高Dice值。Jin等利用PET和CT图像的2个流链融合开发了基于深度学习的食管癌全自动GTV分割。他们的方法使用110项临床研究实施,并使用5折交叉验证方案进行评估。他们获得了0.76±0.13的Dice,因此优于3D Dense-UNet(0.74±0.16)。以前的研究强调了CT图像信息对正确描绘GTV的补充贡献。
在这项工作中,我们评估了不同的网络结构和在扩充数据集上训练的损失函数,并在从开放访问数据库和我们的中心收集的HNC患者的不可见的外部验证数据集上进行了评估。在外部验证集中,我们获得了仅PET图像的最高Dice系数(0.87)。尽管Dice得分很高,但我们观察到一些异常值,由于深度学习算法的黑箱性质,网络无法正确描述GTV。这主要是由于肿瘤摄取低,背景摄取高,肿瘤形态不规则/稀疏所致。在一些离群点的情况下,预测的分割被扩展到背景,这可以用半自动的方法来处理。我们还开发了不同的网络,为不同的患者实现了不同程度的成功和不同的性能。我们计划使用装订或投票算法来提供更健壮的分割算法。这项研究的另一个局限是只使用PET图像。进一步的工作应该集中在合并可从并行CT或MR图像中获得的解剖/结构信息上。
Conclusion
我们评估了不同深度神经网络在HNC患者PET图像中勾画GTV的性能。深度学习算法在HNC PET图像上自动勾画GTV显示出良好的性能。结果表明,对于不同的网络,不同的损失函数表现出竞争性,其中Res-net和Dense-vNet的交叉熵和NN-UNET的Dice+XEnt是最有前途的GTV描述方法。然而,当考虑在临床上部署基于深度学习的分割算法时,由于存在离群值,建议谨慎行事。