这篇文章介绍了一个新的大规模腹部器官分割数据集(WORD),包含150个CT体积(30495个切片),每个体积有16个器官的精细注释。该数据集是目前最全面的腹部器官分割数据集之一,可用于研究和临床应用开发。文章还评估了几种最先进的分割方法在该数据集上的性能,并探讨了推理高效学习和标注高效学习等潜在的研究方向。这项工作为腹部多器官分割任务提供了新的基准和挑战。
Hightlights
- •
A high-quality abdomen CT dataset with annotations of 16 organs in 170 volumes.
- •
A benchmark for fully-supervised abdominal organ segmentation.
- •
Performance gap between deep learning methods and oncologists was measured.
- •
A benchmark of efficient abdominal organ segmentation from high-resolution CT images.
- •
The dataset also facilitates research on label-efficient multi-organ segmentation.
一、介绍
腹部器官分割是腹部疾病诊断、癌症治疗和放射治疗计划的基本和基本任务(Tang 等人,2019 年)。准确的分割结果可以为临床诊断和随访提供有价值的信息,如器官大小、位置、边界状态、多个器官的空间关系等。此外,器官分割在临床治疗中起着至关重要的作用,尤其是在基于放射治疗的癌症和肿瘤治疗中(Chen 等人,2021b)。准确分割有风险的器官可以减轻对癌症区域附近健康器官的潜在影响。然而,在临床实践中,器官分割通常由放射肿瘤学家或放射科医生手动执行。它既耗时又容易出错,需要注释员逐层描述和检查,每个案例可能需要几个小时。此外,由于成像协议/质量和解剖结构不同,快速描绘许多器官对于初级肿瘤学家来说也是一项具有挑战性的任务。
在这项工作中,我们的目标是收集一个带有详细注释的大规模真实临床腹部数据集(WORD)。我们数据集中的所有扫描都是手动分割的,非常详细,涵盖了腹部区域的16个器官。最近,一些研究人员通过提供带有预训练模型或半自动方法的注释来重新使用以前的数据集(Ma 等人,2021 年,Rister 等人,2020 年),这可能会影响注释者的决策,特别是关于低对比度边界区域。相比之下,WORD数据集是从放射治疗中心收集的,由一位资深肿瘤学家(具有7年的经验)进行注释,然后由专家(超过20年的经验)进行检查,讨论和完善。所有图像在放射治疗前均进行扫描,没有任何外观增强,具有相似的扫描位置和相似的图像间距等。
二、相关工作
2.1腹部器官分割数据集
由于整个腹部区域的临床CT图像非常私密且难以收集和注释,因此很少有带有仔细注释的整个腹部器官的数据集是公开的。我们在表1中总结了这些公开的腹部CT数据集。在这项工作中,我们考虑了具有四个或更多注释器官的数据集。BTCV(Beyond The Cranial Vault)(Landman等人,2017)由50个CT体积组成,分别30和20用于训练和测试。在BTCV数据集中,手动注释了13个器官,包括主动脉,肝脏,脾脏 ,右肾,左肾,胃,胰腺,胆囊,食道,下腔静脉,门静脉和脾静脉,右肾上腺和左肾上腺。DenseVNet(Gibson等人,2018)有90次CT扫描,其中47次扫描来自BTCV数据集(Landman等人,2017年),其他43例来自TCIA数据(Roth等人,2015年),每个病例都有八个器官的注释。CT-ORG(Rister 等人,2020 年)是一个开放的数据集,包含 140 张 CT 图像,并注释了五个器官。这些图像中的大多数来自挑战训练集(Bilic 等人,2019 年)。AbdomenCT-1K 数据集(Ma 等人,2021 年)将五个公共单一器官分割数据集扩展到四类(1062 体积)和一个小型临床数据集(来自 20 名患者)。此数据集包含四个器官注释:肝脏、肾脏、脾脏和胰腺。BTCV,DenseNet和CT-ORG受到小规模或少量注释类的限制,不能很好的促进该主题的研究。虽然腹部CT-1K很大,但注释的器官太少,无法评估整个腹部分割任务的效率。与这些现有的数据集不同,我们的数据集来自一个新的医疗中心,该中心具有大规模和更多注释的器官,例如结肠,肠,直肠等。我们相信WORD数据集是最全面的医学图像分割数据集之一。
2.2腹部器官分割
最近,基于深度学习的方法已广泛用于腹部器官分割任务,尤其是基于UNet的深度网络(Ronneberger等人,2015)。这项任务的主要挑战在于复杂的解剖结构,软组织的边界不清晰,图像的高分辨率以及大小器官之间的尺寸极其不平衡等。许多工作都试图应对这些挑战。Gibson等人(2018)提出了一种DenseVNet,用于从CT中分割8个器官,通过记忆高效的丢失和特征重用来实现高分辨率激活图。Wang等人(2019)提出了一种使用反向连接的器官注意力网络进行腹部多器官分割的新框架,并在内部数据集上对其进行了评估。Liang 等人(2021 年)将患者间和患者内变形数据增强与多尺度 Attention-UNet(Schlemper 等人,2019 年)相结合,以实现准确的腹部多器官分割。Tang等人(2021)提出了一种基于批次的方法加随机移位策略,以提高高分辨率腹部CT体积多器官分割的性能。最近,基于transformer的方法(Cao 等人,2021 年,Chen 等人,2021a)用于明确建模长期依赖性,以捕获多器官的关系以进行准确分割。
注意到:目前现有的分割方法大多都是有监督的。依赖于数据集的准确度、数量等限制。
三、WORD数据集
这部分内容介绍了该数据集,并提出了一些可能的研究方向
重点:在 4.2.1Evaluations of SOTA methods on the WORD中提到:the results further show that all SOTA methods can achieve very promising results (DSC> 85%) on large organs, such as the liver, spleen, kidney, stomach, bladder, and head of the femur. It has also proven that the large organ segmentation task is a well-solved problem if there are enough high-quality annotated samples. But for the gallbladder, pancreas, and rectum segmentation, almost all methods get poor results, where DSC < 85% and HD95 > 10 mm,也就是说小器官的分割仍存在挑战性,包括胆囊、胰腺;也包括复杂的器官,比如直肠、食道等。
In this work, we investigate several existing SOTA methods on the WORD dataset, including convolutional neural networks-based networks, nnUNet (Isensee et al., 2021) and its variations (both 2D and 3D), ResUNet (Diakogiannis et al., 2020), DeepLabV3+ (Chen et al., 2018a), UNet++ (Zhou et al., 2019c) and Attention-UNet (AttUNet) (Oktay et al., 2018), and transformer-based architectures, CoTr (Xie et al., 2021) and UNETR (Hatamizadeh et al., 2022).可以观察到,所有基于 CNN 的方法都优于基于transformer的 CoTr(Xie 等人,2021 年)和 UNETR(Hatamizadeh 等人,2022 年)
这里还是比较奇怪的,一般来说transformer的能力是高于CNN的。我的猜测是对于器官分割来说,并不很需要全局信息。局部的解剖结构更重要。
我们采用全面的用户研究来测量网络与三位肿瘤学家之间的差距。遵循深度学习辅助器官描绘系统的一般工作流程(Chen 等人,2021b),我们邀请了来自三家不同医院的三名初级肿瘤学家(具有 3 年的经验)独立修改模型生成的预测,直到结果在临床上是可接受的。我们随机选择了nnUNetV20(2D)产生的3个预测进行用户研究,并计算了修改后的结果。定量比较DSC在nnUNet预测和三位肿瘤学家的修正结果之间的不同,如图所示。对于大尺寸和清晰边界的器官,深层网络可以产生非常接近临床适用的有希望的结果,只需进行几次修改。然而,深度网络和初级肿瘤学家在小器官分割方面存在巨大差距。这表明深度网络有可能减轻肿瘤学家注释大型器官的负担。未来,将用户交互与深度网络相结合可能有助于进一步减轻描绘小器官的负担并加速临床工作流程(Luo等人,2021c,Wang等人,2018)。
注意:对于大型器官,如肝、脾、肾、胃、膀胱和股骨头,深度网络的输出结果可以非常接近初级肿瘤学家,这意味着模型预测在稍作修改后在临床上是可以接受的。然而,初级肿瘤学家与胆囊、食道、胰腺、十二指肠、肾上腺和直肠等小器官的深层网络之间存在巨大的性能差距,这表明在没有肿瘤学家修改的情况下,将模型预测直接应用于临床应用是很困难的。
总结
这应该是目前最完善的、并且适合国人体质的腹部器官分割数据集了(为什么适合国人体质?存在domain gap)。直接将它的注释用于配准工作应该是有意义的。
另:该数据集的获取需要在 GitHub 上下载,但需要申请权限和密码。回复非常快,在我发出邮件后一个小时就收到回答了,在此感谢作者!