Multiclass CBCT Image Segmentation for Orthodontics with Deep Learning

基于深度学习的正畸多类CBCT图像分割

摘要

圆锥束计算机断层扫描(CBCT)对颌骨(即下颌骨和上颌骨)和牙齿的准确分割对于正畸诊断和治疗计划至关重要。尽管已经提出了各种(半)自动化的方法来分割颌骨或牙齿，但仍然缺乏能够同时分割CBCT扫描中两个解剖结构的全自动分割方法(即多类分割)。**在这项研究中，我们的目的是训练和验证一个混合尺度密集(MS-D)卷积神经网络，用于CBCT扫描中颌骨、牙齿和背景的多类别分割。**从接受正畸治疗的患者中获得30张CBCT扫描。金标准分割标签是由4名牙医手工创建的。作为基准，我们还评估了分割颌骨或牙齿的MS-D网络(即二值分割)。所有分割的CBCT扫描被转换为虚拟三维(3D)模型。通过Dice相似系数和表面偏差对训练后的MS-D网络的分割性能进行评价。MS-D网络分割的CBCT扫描与金标准分割有较大的重叠(Dice相似系数:0.934±0.019，下颌;0.945±0.021，牙)。基于MS-D网络的下颌和牙齿三维模型与相应的金标准3D模型相比，表面偏差较小(0.390±0.093 mm，下颌;0.204±0.061 mm，齿)。MS-D网络分割1个CBCT扫描大约需要25秒，而人工分割大约需要5小时。本研究表明，下颌和牙齿的多类分割是准确的，其性能与二值分割相当。因此，经过多分类分割训练的MS-D网络将大大减少CBCT扫描中分割多个解剖结构所需的时间，从而使患者特异性正畸治疗更加可行。

关键词:面骨，牙面畸形，诊断成像，图像处理，神经网络，人工智能

1 介绍

锥束计算机断层扫描(CBCT)由于其低成本和低辐射剂量而越来越多地用于正畸治疗(Carter et al . 2016)。CBCT扫描中嵌入的三维(3D)信息使正畸医生能够准确评估复杂的牙齿和骨骼错颌，这有助于大大改善诊断和治疗计划(Kapila和Nervina 2015;Abdelkarim 2019)。诊断牙面异常和畸形的一个重要步骤是将CBCT扫描转换为相关解剖区域的虚拟3D模型，如下颌骨、上颌骨和牙齿。通过叠加患者在不同时间点的3D模型，可以直观定量地评估正畸的变化。此外，这些3D模型可以通过有限元分析来模拟牙槽骨的应力分布(Likitmongkolsakul et al 2018)。

目前，创建正畸3D模型最具挑战性的步骤是CBCT图像分割，即将CBCT扫描结果划分为不同的解剖区域。例如，由于牙根及其周围的牙槽骨的强度相似，分割牙齿是很费力的。此外，由于高噪声水平、有限的图像分辨率和锥束伪影(Schulze et al 2011)，很难准确分割骨骼结构，例如髁突和支。因此，骨结构经常被错误地标记，这导致在转换为3D模型时出现空洞和间隙，随后影响治疗计划和有限元分析的质量。

在过去的几十年里，已经提出了几种方法来(半)自动分割CBCT扫描中的各种解剖结构。这些自动方法包括边缘检测、分水岭分割、区域种子生长、聚类方法、形态蛇、随机森林和统计形状模型(Khan 2014;Mustafa et al . 2016;van Eijnatten等人2018)。虽然这些方法能够分割CBCT扫描，但准确分割下颌骨，上颌骨和牙齿仍然具有挑战性。因此，在临床设置中，人工校正仍然是必要的，以实现准确的分割。因此，需要寻找新的图像自动分割方法。

深度卷积神经网络(cnn)最近越来越多地用于医学图像分割(Litjens et al . 2017;Altaf等人2019)，并取得了最先进的性能(Minnema等人2018;Casalegno等2019;Nguyen et al . 2020)。cnn的成功主要归功于其学习输入图像中非线性空间特征的能力。几个研究小组已经使用cnn对下颌骨或牙齿进行分割(即二值分割)，并证明cnn能够执行准确的分割任务(Egger et al 2018;邱等人2018;崔等人2019;Lee et al . 2020)。然而，在CBCT扫描中应用cnn同时分割颌骨(即下颌骨和上颌骨)和牙齿的研究尚未发表，也称为多类分割。与二值分割相比，多类分割方法只需要训练一个网络来分割颌骨和牙齿，从而减少了整体的训练时间。此外，多类分割不会受到分割标签冲突的影响。当一个二值分割网络将一个像素分类为jaw而另一个将其分类为teeth时，就会产生这种标签冲突。

一种新的CNN架构，即混合尺度密集(MS-D) CNN，最近显示出有希望的分割性能(Pelt和Sethian 2018;Minnema et al . 2019)。这种MS-D网络可以准确和自动地分割不同的骨骼结构。为了减少为患者特定的正畸治疗创建3D模型所需的耗时和昂贵的手工劳动，我们的目标是训练MS-D网络在CBCT扫描中同时分割下颌和牙齿。

2 材料与方法

CBCT扫描信息、CNN架构、实现和训练细节、CNN性能评估见附录。

我的老天爷！！！！！！！！！有实现和训练细节

2.1 数据采集与预处理

30例患者的牙科CBCT扫描(年龄11 ~ 24岁;平均值±标准差，14.2±3.4 y;19名女性和11名男性)曾在上海旭辉牙科中心接受过正畸治疗。本研究中使用的CBCT扫描是在正畸治疗前获得的，没有患者有填充物，种植体或冠。

因此，CBCT扫描没有金属伪影。没有患者缺牙，大多数患者尚未长出智齿(n = 22)。每位患者和至少一位家长签署知情同意书。患者数据的使用经上海旭辉牙科中心医学伦理委员会(No. 20193)批准。

由于本研究的重点是对颌骨和牙齿进行分割，因此我们将所有CBCT扫描结果裁剪到这些解剖区域，从而得到轴向尺寸范围在255到384之间的扫描结果。总共从30次CBCT扫描中获得9507片。

为了获得金标准标签，所有30张CBCT扫描被分割成3类:颌骨、牙齿和背景。手工分割由4名至少有2年牙科诊所工作经验的牙医进行。4名牙医接受了良好的指导和广泛的练习，直到他们能够准确地在CBCT扫描中注释颌骨和牙齿。之后，将30张CBCT扫描分布在4个注释者中，每个CBCT扫描仅由单个注释者分割一次。

这种分割是用全局阈值进行的，然后是手动校正，即通过Mimics 21.0软件(Materialise)去除噪声、伪影和不相关的部分，以及在分割扫描中添加缺失的薄骨结构和填充错误的空腔。得到的分割标签作为金标准。

2.2 CNN 架构

在本研究中，我们采用了Pelt和Sethian(2018)开发的MS-D网络。图1A给出了深度为3，宽度为1的MS-D网络的示意图概述。

在这里插入图片描述
图1 MS-D网络架构和4重交叉验证方案。(A) 3个卷积层宽度为1的MS-D网络示意图;(B) 28张CBCT扫描图分为4个子集(S1、S2、S3和S4)，每个子集包含7张CBCT扫描图。对于每个迭代，3个子集用于训练，1个子集用于测试。锥形束计算机断层扫描;MS-D，混合尺度致密。

2.2.1 实施及训练详情

设计了三个实验来评估MS-D网络的分割性能。第一个实验是多类分割，训练MS-D网络同时分割3个标签:颌、牙齿和背景。第二个和第三个实验是二值分割，MS-D网络分别对颌骨和牙齿进行分割。

28个CBCT扫描被分为4个子集(S1、S2、S3和S4)，每个子集包含7个扫描。每个实验采用4倍交叉验证方案(Anguita et al 2012)，即使用3个子集进行训练，1个子集进行测试。该过程重复4次，使每个CBCT扫描只用于一次测试(图1b)。未包括在4倍交叉验证方案中的2个CBCT扫描被用来确定训练的最佳epoch数。

2.3 CNN性能评估

用Dice相似系数(DSC)评价MS-D网络的分割性能;Zou et al . 2004)。在患者水平上计算DSC，这意味着为每个分段CBCT体积计算单个DSC。

计算基于MS-D网络的三维模型与金标准之间的表面偏差，以评估MS-D在骨结构边缘周围分割的准确性。此外，计算了基于MS-D网络的三维模型与金标准之间的平均绝对偏差(MADs)。

在交叉验证方案的4次迭代后，MS-D网络的性能在28次CBCT扫描中平均。

3 结果

在这里插入图片描述
图2。多类分割和二值分割方法所得dsc的比较。对于颌骨分割(A)和牙齿分割(B)，多类分割和二值分割是等效的。此外，还展示了下颌©和牙齿(D)的3D模型，这些模型是通过CBCT扫描获得的，结果显示dsc最低。3 d三维;锥形束计算机断层扫描;DSC，骰子相似系数

多类和二值分割方法的分割精度相近(图2A, B)。前者得到的颌骨dsc在0.901(患者3)~ 0.968(患者28)之间，平均值为0.934±0.019。患者2 ~ 28牙的dsc值为0.881 ~ 0.971，平均值为0.945±0.021。对于二值分割，颌骨dsc范围为0.892(患者3)~ 0.966(患者28)，平均值为0.933±0.020。患者2 ~ 28牙的dsc值为0.889 ~ 0.973，平均值为0.948±0.021。患者3的下颌DSC最低是由于其金标准中较大的上颌排除区域，而该排除区域被MS-D分割(图2C)。患者2的牙齿DSC最低，是由于MS-D分割这些牙齿时，未出牙未包括在金标准中(图2D)。多类分割方法与二值分割方法的dsc对比显示，下颌分割的ci值为- 0.001 ~ 0.003，牙齿分割的ci值为- 0.004 ~ - 0.001,ci值为90%，表明两种方法的分割效果相当，置信度为95%。
在这里插入图片描述
图3。用多分类分割方法对患者9的5个轴向CBCT切片进行下颌和牙齿分割。第一列包含5个轴向CBCT切片，代表不同的颅骨解剖结构。第二列和第三列分别为金标准段和MS-D段。最后一列表示黄金标准和MS-D分割之间的差异。下巴的假阴性标记为紫红色，假阳性标记为超粉色和藤黄色。牙齿的假阴性用粉色标记，假阳性用小麦和黄色标记。锥形束计算机断层扫描;MS-D，混合尺度致密。

患者9的CBCT扫描的多类分割示例如图3所示。选取代表不同颅骨解剖结构的5张CBCT轴向切片。差图显示，误差主要发生在边缘，偏差在1像素左右(图3A, B)。与金标准相比，MS-D网络不能分割上颌窦周围的一些薄骨结构(图3E)。
在这里插入图片描述
图4。基于MS-D网络的下颌三维模型与相应的金标准三维模型之间的表面偏差。患者15和16的CBCT扫描用于验证，因此不包括在分析中。(A)表面偏差的方框图和晶须图。方框表示四分位数范围，胡须表示表面偏差的第10和第90百分位数。(B)给出了3种颌骨模型的表面偏差彩色图的前、后、各向同性视图。患者28和12分别对应最小和最大MADs。患者25的MAD接近平均MAD。3 d三维;锥形束计算机断层扫描;MAD，平均绝对偏差。

图4A显示了通过多类和二值分割得到的所有三维颌骨模型的表面偏差。图4B展示了来自多类分割的3个颌骨模型。患者28和12分别对应最小和最大MADs。患者25的MAD接近平均MAD。颌骨模型的所有MAD值见附录表。在分析颌骨模型时，多类别分割导致表面偏差从- 0.191±1.095 mm(患者14)到0.185±1.011 mm(患者3)，平均MAD为0.390±0.093 mm。二值分割导致表面偏差从- 0.180±1.069 mm(患者14)到0.252±1.058 mm(患者3)，平均MAD为0.410±0.103 mm。

在这里插入图片描述
图5。基于MS-D网络的牙齿三维模型与相应的金标准模型之间的表面偏差。患者15和16的CBCT扫描用于验证，因此不包括在分析中。(A)表面偏差的方框图和晶须图。方框表示四分位数范围，胡须表示表面偏差的第10和第90百分位数。(B) 3个牙齿模型表面偏差彩色图的前、后、各向同性视图。患者28和23分别对应最小和最大MADs。患者14的MAD接近平均MAD。3 d三维;锥形束计算机断层扫描;MAD:平均绝对偏差;MS-D，混合尺度致密。

图5A显示了通过多类和二值分割得到的所有三维牙齿模型的表面偏差。图5B给出了来自多类分割的3个牙齿模型。患者28和23分别对应最小和最大MADs。患者14的MAD接近平均MAD。牙齿模型的所有MAD值见附录表。在分析牙齿模型时，多类别分割导致表面偏差从−0.107±0.546 mm(患者5)到0.318±0.347 mm(患者23)，平均MAD为0.204±0.061 mm。二值分割导致表面偏差从- 0.116±0.534 mm(患者12)到0.290±0.272 mm(患者23)，平均MAD为0.163±0.051 mm。

4 讨论

CBCT越来越多地用于创建虚拟3D模型，用于定量评估牙齿吸收、髁突生长、下巴和牙齿运动等正畸变化。创建这些3D模型需要准确分割颌骨(即下颌骨和上颌骨)和牙齿。然而，手工分割这两种解剖结构是费时、费力和昂贵的。在这项研究中，我们训练了一种新的MS-D网络来同时分割CBCT扫描中的下颌和牙齿(即多类分割)。MS-D网络分割的下颌和牙齿显示出较高的dsc，其3D模型与金标准相比表面偏差较小。MS-D网络在1次CBCT扫描中分割下颌和牙齿的时间约为25秒，从而显著减少了分割所需的时间。因此，训练用于多类分割的MS-D网络在准确、自动分割多个感兴趣的解剖结构用于正畸诊断和治疗方面具有很大的潜力。

多类分割一直被认为是具有挑战性的，因为它面临着类数据不平衡和类间特征相似问题(Chen等人2018;Novikov et al . 2018;Jafari et al 2019)。与多类策略相比，二元策略通常更具鲁棒性，准确性更高，但代价是增加了训练时间(Berstad等人2018;Gómez et al 2020)。在本研究中，经过多类分割训练的MS-D网络能够在CBCT扫描中准确分割下颌和牙齿，达到与二值分割相当的精度。这表明MS-D网络与二值分割相比，可以用3个类训练而不损失分割精度。此外，与二元分割相比，多类分割有两个重要的优点。首先，多类分割只需要训练一个CNN来分割下颌和牙齿，这比训练2个CNN进行二值分割的速度快了一倍。具体来说，训练MS-D网络大约需要20小时(每个历元1小时)，1次CBCT扫描的分割大约需要25秒。然而，必须注意的是，这两种深度学习方法的分割时间仍然明显少于人工分割，人工分割每次CBCT扫描大约需要5小时。第二个优点是，与二元分割不同，多类分割不会产生冲突的标签。当一个二值分割网络将一个像素分类为jaw而另一个将其分类为teeth时，就会产生这些冲突的标签(附录图)。

在本研究中训练的MS-D网络产生的dsc与文献中提出的dsc相当。对于下颌骨分割，Qiu等(2018)使用轴向、矢状面或冠状面CBCT切片训练3个cnn，然后将所有3个cnn的分割结果合并，得到平均DSC为0.896。对于上颌骨分割，S. Chen等人(2020)使用基于学习的多源集成框架发现DSC平均值较低，为0.800±0.029。对于牙齿分割，Lee等人(2020)采用多相策略来训练基于u - net的架构，结果dsc范围为0.910至0.918。此外，Cui等人(2019)采用了由牙齿边缘图提取网络和区域建议网络组成的两阶段网络，平均DSC为0.926。与上述研究相比，本研究中使用的MS-D网络获得了相当的dsc。然而，所回顾的研究使用不同的数据集来评估其方法，这意味着应谨慎解释dsc之间的差异。

所有基于MS-D网络的3D模型都与相应的金标准3D模型非常相似。我们研究中发现的表面偏差普遍低于Wang等人(2016)的结果，Wang等人开发了一种随机森林方法，在CBCT扫描中分割下颌骨和牙齿。下颌切分的表面偏差为0.420±0.150 mm，而上、下牙切分的表面偏差分别为0.312±0.103 mm和0.346±0.154 mm。与Y. Chen等(2020)开发的多任务全CNN相比，我们的MS-D网络分割产生的牙齿表面偏差也更低。他们的网络被训练为单个牙齿分割，平均表面偏差为0.363±0.145 mm。

本研究训练的MS-D网络的分割误差主要发生在骨结构的边缘(图3)，这些分割误差可能是部分体积效应造成的。当不同密度的组织被包含在同一体素中时，这种情况通常发生在两个解剖区域的边界(例如，骨骼和软组织)。因此，精确地定义骨结构的边缘区域是极其困难的。这一现象也可以解释为什么上颌的一些薄骨结构不能被MS-D网络正确分割(图3E)。CBCT扫描的质量也会影响分割的准确性。例如，在患者12的CBCT扫描中，分支和髁的分割很差(图4B)，因为这些区域受到运动伪影的影响。

深度学习在医学和牙科领域面临的一个挑战是获得准确的黄金标准(Schwendicke et al 2020)。金标准通常是由人类注释者创建的，它包含观察者之间和内部的内在可变性。然而，深度学习可以从大型训练数据集中学习，因此能够克服这种可变性(Naylor 2018)。在本研究中，金标准分割标签由4位牙医进行标注，引入了金标准的主观可变性。例如，1例患者未出牙未纳入金标准。由于MS-D网络能够从所有分割的CBCT图像中学习，因此MS-D网络能够正确分割CBCT扫描中未出牙的所有牙齿。这些发现表明MS-D网络可以减少主观变异性的影响。如果测试集中包含不准确的金标准标签，这可能会影响网络的评估，特别是对于小数据集。然而，由于MS-D网络的性能是在28个CBCT扫描上进行评估的，因此测试集中1个不准确的金标准扫描的影响可以最小化。

在本研究中，采用MS-D网络对多类分割性能进行评价。之所以选择这个网络，是因为它的参数相对较少，这使得它比其他cnn更容易训练和应用(Pelt和Sethian 2018)。将MS-D网络的多类分割性能与U-Net进行了比较，结果表明MS-D网络能够达到与U-Net相似的分割精度(Pelt and Sethian 2018)。然而，MS-D网络并不是唯一能够执行多类分割的CNN架构。已经实现了其他几种CNN架构来执行大脑解剖结构的多类分割(Chen等人2018;Jafari et al 2019)和肺(Novikov et al 2018;Saood and Hatem 2020)。

在这项研究中，所有的CBCT扫描都是来自没有牙齿填充物、种植体或正畸装置的患者，以避免金属伪影的影响。在日常临床实践中，可能存在这样的伪影，因此应谨慎地将当前的发现应用于临床。对于复杂牙齿状态的CBCT图像分割，需要进一步的研究。

为了便于CNN训练，我们将上颌和下颌骨视为一个类别，上下牙视为另一个类别。然而，人们可能希望自动将下颌骨与上颌骨分开，并在分割时对单个牙齿进行分类。在大多数图像处理软件中，使用区域生长方法可以很容易地分离下颌骨和上颌骨，但单独的牙齿分割仍然需要后处理。为了使单个牙齿的自动分割成为可能，我们的目标是在未来的工作中，在MS-D网络的训练过程中包含不同牙齿的单个标签。

5 结论

本研究应用了一种新的MS-D网络将CBCT扫描分割成颌骨、牙齿和背景。多类分割取得了与二值分割相当的分割精度。此外，基于MS-D网络的3D模型与黄金标准3D模型非常相似。这些结果表明，深度学习具有在CBCT扫描中准确、同时分割下颌和牙齿的潜力。这将大大减少在临床环境中花费的时间和精力，从而促进针对患者的正畸治疗。