目录
2.1 U-net like group transformer network
2.2 Shape-sensitive Fourier Descriptor Loss Function
3.1 Tooth Root Segmentation Dataset
3.4 Performance on the Public DRIVE Dataset
摘要
为了实现对根管治疗的准确评估,一个基本的步骤是对口腔x线图像进行牙根分割,因为牙根边界的位置是根管治疗评估中重要的解剖信息。然而,模糊边界使得牙根的分割非常具有挑战性。在本文中,我们提出了一种新的端到端U-Net like Group Transformer Network(GTU-Net)用于牙根的分割。该网络保留了U-Net的基本结构,但每个编码器和解码器都被一个组Transformer所取代,利用分组结构和bottleneck结构,大大降低了传统transformer结构的计算成本。此外,所提出的GT U-Net是由卷积和transformer的混合结构组成的,这使其独立于训练前的权值。为了进行优化,我们还提出了一个形状敏感的傅里叶描述符(FD)损失函数来利用形状先验知识。实验结果表明,该网络在采集的牙根分割数据集上取得了最先进的性能。
作者想解决的问题:通过人工智能对模糊边界的牙根进行分割,简化根管治疗评估难度。
作者解决问题的理论/模型:提出一种新的端到端U-Net like Group Transformer Network,将U-Net中的每个编码器和解码器都被一个组Transformer给取代
这个方法的优越性(创新点)在哪?:①U-net中的每个编码器和解码器都被一个组Transformer所取代,利用分组结构和bottleneck结构,大大降低了传统transformer结构的计算成本 ②提出了一个形状敏感的傅里叶描述符(FD)损失函数来利用形状先验知识
1.引言
进行精确的牙根分割是一项非常具有挑战性的任务,原因如下:1)牙根边界模糊,牙齿周围的一些组织与牙齿的强度相似,如图所示。1(a);2)口腔x线图像中的其他骨骼和组织可能与牙根重叠,如图所示。1(b);3)x射线图像的质量可能很差,如过度曝光或曝光不足,如图所示。1 (c)
为了解决上述问题,赵等人提供了一个两阶段的注意分割网络,通过聚焦于自动捕捉真实的牙齿区域,可以有效地缓解非均匀强度分布问题。Lee等人。采用微调掩模R-CNN算法来实现牙齿分割。然而,这些方法并不能有效地解决模糊边界的分割问题,而且性能的提高大多是增量式的。陈晓强等人。提出了一种具有多尺度结构相似性(MS-SSIM)损失的新型MSLPNet,增强了具有模糊根边界的牙齿分割。Cheng等人提出了U-Net+DFM来学习一个方向场。它表征了像素之间的方向性关系,并隐式地限制了分割结果的形状。
虽然这些方法在分割任务中都取得了良好的效果,但它们仍然受到卷积神经网络(CNNs)固有局部性的限制,不能很好地处理全局特征。为了缓解这个问题,非常希望通过非本地操作实现长期依赖,并进行转换。Transformer提供了一个建模管道来实现这一点。陈晓强等人提出了一种基于变压器的transUnet编码器,采用具有12层transformer的ViT作为编码器。然而,ViT依赖于预先训练的训练由一个巨大的图像语料库获得的权值,这导致了在不足的数据集上的性能不佳。为了解决这个问题,阿拉文德等人结合transformer和卷积,提出了一种有效的实例分割骨干BoTNet。由于Transformer的计算复杂度较高,BoTNet只用Transformer取代了ResNet最后几层的部分卷积。
为了缓解现有方法中存在的问题,我们的网络GTU-Net采用了卷积和变压器的组合,没有训练前的权重,以及利用分组结构和瓶颈结构,显著减少了计算量。此外,FD损失还通过充分利用形状先验知识,解决了模糊边界分割的问题。本文的主要贡献如下:
为什么研究这个课题:进行精确的牙根分割是一项非常具有挑战性的任务。牙根边界可能模糊,牙齿周围的一些组织与牙齿的强度相似口腔x线图像中的其他骨骼和组织可能与牙根重叠,x射线图像的质量可能很差,如过度曝光或曝光不足。
研究进行到了哪个阶段:虽然这些方法在分割任务中都取得了良好的效果,但它们仍然受到卷积神经网络(CNNs)固有局部性的限制,不能很好地处理全局特征。
使用理论基于哪些假设:①保留了一般的U-Net框架的优势,并将Transformer引入医学图像分割应用,以解决卷积的限制。②我们设计了一个分组结构和一个瓶颈结构,这大大降低了变压器的计算负荷,使其在图像分割中可行。③对于根的分割任务,我们提出了一个形状敏感的傅里叶描述器损失函数来处理模糊边界分割的问题。
GT U-Net的结构由一个u型通用框架和group transformer组成。自注意层是多头自注意(MHSA)的基本结构,其中我们的MHSA有4个head。
2.方法
GTU-Net遵循整体的u型结构,其中编码器和解码器都由group transformer组成。它的工作与一个形状敏感的傅里叶描述(FD)损失函数的牙根分割。下面将详细描