YOLO-Universal Anatomical Landmark Detection论文精读

前言

论文《You Only Learn Once: Universal Anatomical Landmark
Detection》
提出了一个通用的解剖地标检测的架构模型。You Only Learn Once(你只学一次),这个是一个新的概念,我的理解就是:我们可以不用为某一个数据集单独学习或者构建模型,而是可以混合所有数据集,然后进行一次学习就够了。而且论文作者说了,在这项工作中,是第一个提出基于一次学习,并开发一个通用的模型在混合数据集上实现端对端的多个地标检测任务。定性和定量的实验结果表明,我们提出的模型优于其他在多个数据集上训练的模型,甚至优于单独在单个数据集上训练的模型

源代码地址:https://github.com/MIRACLE-Center/YOLO_Universal_Anatomical_Landmark_Detection

作者简介
  • 奇迹医学团队主页
  • 单位: 医学影像、机器人与智能分析(MIRACLE) 研究组-中科院智能信息处理重点实验室。
  • 发表:Accepted for MICCAI 2021

摘要

在医学图像中检测解剖标志对于理解解剖学和规划自动处理起着至关重要的作用。近年来,各种深度神经网络方法已经发展起来来自动检测地标。然而,所有这些方法都是单一的,因为一个高度专门化的网络被训练成一个单一的任务,比如与一个特定的解剖区域相关的。在这项工作中,我们首次研究了“你只学习一次(YOLO)”的想法,并开发了一个通用的解剖地标检测模型,通过基于混合数据集的端到端训练来实现多个地标检测任务。该模型由一个局部网络和一个全局网络组成:局部网络建立在通用U-Net的思想之上,学习多域局部特征,全局网络是一个并行重复的扩张卷积序列,提取全局特征,以进一步消除地标位置的歧义。值得一提的是,新的模型设计需要的参数比具有标准卷积的模型要少得多。我们在三个1588张x线数据集上评估了我们的图像,共贡献了62个地标。实验结果表明,我们提出的通用模型明显优于以往任何在多个数据集上训练的模型。它甚至优于为每个数据集单独训练的模型的性能

介绍

地标检测在各种医学图像分析任务[26,25]中起着重要的作用。例如,椎骨的标志有助于手术计划[2],它决定了种植体的位置。此外,地标位置可用于医学图像的分割[5]和配准[9]。

由于在医学图像中手工标注地标是费时费力,近年来发展了许多计算机辅助的地标检测方法。

这些方法可以分为两种类型:传统的和基于深度学习的方法。传统的方法旨在设计图像滤波器和提取不变特征,如SIFT[15]。Liu等人[14]提出了一个子模数优化框架,利用地标之间的空间关系来检测它们。Lindner等人[13]提出了一种使用监督随机森林回归的地标检测算法。

与深度神经网络方法相比,这些方法的准确性和鲁棒性都较差

Yang等人[23]利用深度神经网络,提出了一种深度图像到图像的网络,该网络采用编码器-解码器结构来初始化椎骨位置,该结构与另一个ConvLSTM模型一起进化,并通过基于形状的网络进行细化

Payer等人[16]提出了一种新的基于cnn的神经网络,该神经网络将空间配置集成到热图中,并证明,对于地标检测,局部特征是准确的,但可能是歧义,尽管全局特征消除了歧义,但不准确的[10,27]

最近,Lian等人[12]开发了一种多任务动态转换器网络,用于骨分割和大规模地标定位,在检测地标时也利用全局特征。

然而,所有这些方法都是单一的,因为高度专业化的网络是为单个任务训练的,比如与特定解剖区域(如头部、手或脊柱)相关联的任务,通常基于单个数据集,并且不够健壮[24]。开发一个只学一次并适用于所有任务的模型[4,11],即“你只学一次”是有希望和可取的。我们在文献中首次开发了一个强大的通用模型,用于检测与不同解剖结构相关的标志,每个标志都有一个数据集作为示例。我们的方法试图释放“更大数据”的潜力,因为它利用了所有训练图像的集合,并构建了一个优于单独训练的模型的模型。我们认为,在看似不同的解剖区域之间存在共同的知识,观察到来自不同数据集的地标的局部特征共享一些特征(例如可能位于曲线或表面的拐角、端点、极值等)。);毕竟,它们都是地标。我们试图设计一个模型,能够捕捉这些共同的知识,以获得更多的有效性,同时考虑到不同任务之间的差异。据我们所知,这标志着首次进行这样的landmark检测。

我们的模型,名为 Global Universal U-Net (GU2Net) 它有一个本地网络和一个全局网络。局部网络被设计为类似于一个通用的U-Net,每个卷积被可分离的卷积取代, 可分离的卷积由channel-wise 卷积和 point-wise卷积组成,其中对任务共享的知识和特定任务的知识进行建模,因此比正常卷积的参数更少。

作者对论文工作总结
  • 这是文献中第一次尝试开发一个通用的地标检测模型,适用于多个数据集和不同的解剖区域,释放了 "更大数据 "的潜力。
  • 在三个X射线数据集(头部、手部和胸部)检测总共62个地标,共1,588张图像有最优的性能。而且只使用一个模型,需要较少的参数。

方法

模型架构图如下

在这里插入图片描述

本地网络

  • 局部网络目的是提取局部特征并生成局部热图,用于确定地标的准确位置。
  • 分离卷积替换U-Net中的标准卷积
  • 每个数据集分配了一个不同的channel-wise convolution,所有数据集共享同一个point-wise convolution
    在这里插入图片描述

在这里插入图片描述

深度可分离卷积
  • 首先用3x3的卷积核做channel-wise
  • 然后使用1x1的卷积核做shared point-wase

深度可分离卷积如图:
在这里插入图片描述

关于更多分离卷积的介绍请参见可分离卷积(Separable convolution)详解

  • 论文中深度可分离代码实现如下:
class DoubleConv(nn.Module):
    """(convolution => [BN] => ReLU) * 2"""

    def __init__(self, in_channels, out_channels, mid_channels=None, task_num=1):
        super().__init__()
        if not mid_channels:
            mid_channels = out_channels
        self.dwise1 = nn.ModuleList([dwise(in_channels)
                                     for i in range(task_num)])
        self.dwise2 = nn.ModuleList([dwise(mid_channels)
                                     for i in range(task_num)])
        self.pwise1 = pwise(in_channels, mid_channels)
        self.pwise2 = pwise(mid_channels, out_channels)
        self.bn1 = nn.ModuleList([nn.BatchNorm2d(mid_channels)
                                  for i in range(task_num)])
        self.bn2 = nn.ModuleList([nn.BatchNorm2d(out_channels)
                                  for i in range(task_num)])
        self.relu1 = nn.LeakyReLU(inplace=True)
        self.relu2 = nn.LeakyReLU(inplace=True)

    def forward(self, x, task_idx=0):
        x = self.pwise1(self.dwise1[task_idx](x))
        x = self.relu1(self.bn1[task_idx](x))
        x = self.pwise2(self.dwise2[task_idx](x))
        x = self.relu2(self.bn2[task_idx](x))
        return x

全局网络

全局网络由5个3 x 3的空洞卷积,膨胀系数是 [1, 2, 5, 2, 1].随着扩张卷积的增强,实现了较大的接受域,这有利于捕获重要的全局信息

在这里插入图片描述

在这里插入图片描述

Loss Function

  • 采用的是交叉熵损失函数

在这里插入图片描述

其中 f是最终的热图预测值,y是地标真实值

  • 在输出热图中找到第k个通道的最大位置后,得到第k个地标

在这里插入图片描述

实验

这里就不详细介绍了,如果需要跑代码的小伙伴,可以查看它的源码。
我这里已经整理好了训练数据集,如果需要请下载,然后放到data目录即可。

结论

  • 为landmark Detection 建立了一个通用的模型
  • 提出了通用U-Net的局部特征网络和全局网络,有利于准确定位地标
  • 首次尝试多数据集单个网络进行地标检测

相关论文

【23】Deep image-to-image recurrent network with shape basis learning for automatic vertebra labeling in large-scale 3d ct volumes(MICCAI2021)

【16】Integrating spatial configuration into heatmap regression based cnns for landmark localization(MIA2019)

更多好文请关注麋鹿不迷路

在这里插入图片描述

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值