(二十四:2020.11.17)MICCAI 2020 学习(一)《ISINet: An Instance-Based Approach forSurgical Instrument Segment》

MICCAI 2020 学习(一)《ISINet:对外科手术器械进行实例分割的方法》《ISINet: An Instance-Based Approach for Surgical Instrument Segment》)讲在前面摘要论文内容1.介绍讲在前面一.论文地址在这里二.我设计了几种字体颜色用于更加醒目地表现关键的思想和主题:红色表示本文的重要关键信息绿色表示此处需要参考的论文其他部分橙色表示尚未理解透彻的一些概念我会用删除线将自己曾经不到位的理解进行删除蓝色表示此处的一些个人思
摘要由CSDN通过智能技术生成

讲在前面

  • 一.论文地址在这里
  • 二.我设计了几种字体颜色用于更加醒目地表现关键的思想和主题:
    • 红色表示本文的重要关键信息
    • 绿色表示此处需要参考的论文其他部分
    • 橙色表示尚未理解透彻的一些概念
    • 我会用删除线将自己曾经不到位的理解进行删除
    • 蓝色表示此处的一些个人思考
    • 紫色表示我的更新内容
  • 三.目的:本人大致在手术针的检测方面做了一两个月的工作,之前的博客提到过,我用直线检测的方式大致实现了基本的功能,实际的操作过程中,由于能力有限,写了1000行的代码来对得到的结果做后处理,可想而知整个代码的稳定性应该不是很满意的。
            我一直认为基于实例分割的方法来进行针的识别是可行的,恰好这个论文是基于maskrcnn的改进,同时性能比较优异的,我想尝试一下在CT的模态下,是否支持针和粒子的检测,如果可以那当然是令人欣喜的成果,如果不行,只当是为以后的工作打个基础。
  • 四.意义
    • 机器人在手术中的使用越来越多,这部分技术一定是以后的热门,这是一个必然的趋势,我坚信,在这篇论文上花费你的时间绝对的物有所值。
  • 五.思考
    • 1.实例分割有个很好的地方是可以解决哪根针是哪根的问题,而不需要一些检测结果以后的聚类算法。

摘要

        我们的任务主要是研究机器人辅助手术场景中手术器械的实例分割,我们提出一个基于实例分割的术中器械分割网络(ISINet),这种方法依据实例分割的观点。我们的方法包括一个时间一致性模块,该模块考虑了问题的先前被忽略和固有的时间信息。我们在多个数据集上评估了这种方法(the Endoscopic Vision 2017&2018 Robotic Instrument Segmentation Dataset ),同时我们对其标签进行了细粒度的扩展。我们的算法有着SOTA级别的水平,而且我们的基准版本是先前方法的两倍的iou,我们的完整版本是三倍的iou。

关键词:机器人辅助手术·仪器类型分割·图像引导手术·计算机辅助干预·医学图像计算

论文内容

1.介绍

        在这篇论文中,我们专注于外科手术中医疗器械的分割,换句话说,我们致力于确定外科手术场景中的器械定位和每个像素所属种类的正确分割。术中器械的分割通常是一种机器人手术的中间过程,比如用来进行器械的追踪、姿态估计、和手术阶段的评估,反过来说,会用在优化操作空间、甚至是些个人的操作步骤,尤其是在术前的计划当中。因此,术中器械的分割有助于多个领域的技术发展。
        the Endoscopic Vision 2015 Instrument Segmentation and Tracking Dataset这个数据集第一次提到了术中器械语义分割这个任务,但是其任务并不是来区分手术器械的类型,而是确定器械的mask。这些数据的标签使用的是一种半自动化的方法,这样会导致真实情况和手术图像之间没有对准。这种开拓性工作的另一个局限性是缺乏实质性的背景变化,这进一步简化了任务。
        《内窥镜视觉2017年机器人仪器细分(EndoVis2017)数据集》 的开发克服了2015年基准测试的缺点。该数据集包含10个机器人辅助手术图像序列,每个序列由225帧组成。8个为训练数据,2个为测试数据。每帧中有五个器械,总共有七类器械。在这个数据集中,在此数据集中,任务被修改为包括仪器类型和仪器零件的注释。迄今为止,该数据集仍然是研究此仪器细分问题的细粒度版本的唯一现有实验框架。尽管投入了很多精力来构建此数据集,但由于数据量有限,手术内容不切实际(视频是从技能会议记录的)以及原始视频的稀疏采样,因此仍然无法反映一般问题,这限制了时间一致性。
        下一个问题是Endoscopic Vision 2018 RoboticScene Segmentation Dataset,它通过包括解剖对象(例如器官)和非机器人手术器械(例如纱布和缝合线),增加了手术图像分割的复杂性。 与2017年的数据集相比,这些图像是从外科手术中获取的,因此背景,仪器移动,角度和比例都有很大的差异。 尽管有其他注释,仪器类别还是简化为涵盖所有仪器类型的通用仪器类别。 因此,2018年数据集不能用于2017年细化版本的仪器细分任务。
        用于外科手术器械分割的SOTA方法遵循逐个像素的语义分割范例,其中图像中每个像素的类别是独立预测的。 大多数方法修改了神经网络U-Net,后者又基于全卷积网络(FCN)。 其中一些方法试图通过使用边界,深度感知,后处理策略,显着性图或姿态估计来考虑可能使整个仪器与众不同的细节。 然而,这些技术存在标签一致性问题,其中可以为单个仪器分配多种仪器类型,即对象内的类别标签缺乏空间一致性。 通过采用基于实例的分割方法来应对这一挑战; 但是,他们在妇科仪器方面的工作是在私人数据集上进行的。
        用于此任务的SOTA模型的第二个限制是难以确保仪器随时间变化的标签一致性,也就是说,通常在不考虑先前帧中的分类标签的情况下,逐帧预测仪器类别。 最近,MF-TAPNet是第一种通过加上先前帧的类别信息从而增强预测精度的方法。 该先验用作注意力机制,并结合先前帧的光流进行计算。 使用时间提示的其他方法主要针对外科器械数据集而开发,这些数据集中在器械跟踪而不是仪器分割上。 最近,很多方法采用时间信息来改进分割或用于数据增强的目的。 我们的方法不是使用时间信息来改善分类,而是在跨帧的预测中使用冗余来校正标记错误的工具,即确保时间一致性。
        在本文中,我们通过引入基于实例的分割方法来解决标签一致性问题,该方法是基于实例的手术器械分割网络(ISINet)。图1显示了与ISINet的结果相比,SOTA级别的TernausNet预测的机器人辅助手术场景的重组示例:
图一:
在这里插入图片描述
与逐像素分割方法相反,我们的方法首先确定候选仪器,然后为整个仪器分配唯一的类别。 我们的模型建立在实例分割系统Mask R-CNN之上,并向其中添加了一个利用数据顺序性的时间一致性模块。我们的时间一致性策略识别序列中不同帧上的实例,并且考虑到连续单个帧的类别预测,以生成给定实例的时间一致性类别预测。
        如上所述,解决仪器分割的一个限制因素是注释数据的相对稀缺性,尤其是对于任务的细粒度版本。 为了定量评估此因素对算法性能的影响,我们收集了2018年数据集的其他仪器类型注释,从而扩展了2017年训练数据。 遵循2017年数据集注释协议,我们在专家的协助下以其类型和时间上一致的实例标签对工具进行手动注释。 因此,借助我们的附加注释,我们通过15个新图像序列(每个序列由149帧组成)来扩充可用于该任务的数据,并为新仪器类型提供注释。 我们的注释使En-doVis 2018数据集成为可用于研究仪器细分任务的第二个实验框架。
        我们通过评估ISINet在两个数据集中的性能来证明我们的方法的有效性。 结果表明,通过使用基于实例的方法,可以极好的实现SOTA级别的语义分割的水平。
        我们的贡献主要在以下几个方面:
        1.我们提出ISINet这个实例分割仪器的方法;
        2.我们提出的时间连续性模块有效提高分类的精度;
        3.我们新创建的这种任务的数据集能满足一定的需求。
        我们开源了ISINet的源代码和预训练模型,以及我们新创建的EndoVis 2018数据集标签。

2.ISINet

        与预测图像中每个像素的类的逐像素分割方法不同,基于实例的方法为整个对象实例生成类标记。 我们的方法,基于实例的手术器械分割网络(ISINet),建立在非常成功的自然图像实例分割模型Mask R-CNN的基础上。 通过将预测层修改为EndoVis 2017和2018数据集中发现的类数,我们将此体系结构用于细粒度的仪器细分问题,并开发了一个模块来促进跨连续帧的按实例类预测的时间一致性。总的来说,我们的时间一致性模块分两个步骤工作:

  • 首先,在匹配步骤中,我们针对每个图像序列识别并跟随序列中的仪器实例;
  • 然后,在分配步骤中,考虑每个实例的所有预测,并为该实例分配总体仪器类型预测。

接下来,解释一下具体如何实现,这部分后面对应代码仔细探讨,论文写的太tm的难理解了

第一步:在刚开始时确定一下几个定义:
  • I I I: 代表一个图像序列; t t t: 序列的索引,初始化为1; T T T: 序列的终点值
  • M M M: 基础模型,在这里是MaskR-CNN;
  • S S S: 对每个序列t预测的一组分数n,其中n代表的是置信度大于0.75的预测值;
  • O O O: 对每个序列t预测的候选对象;
  • C C C: 对每个序列t的预测类别数;
  • 这个公式代表的大致含义是,输入MaskR-CNN每一帧所得到的输出是有 S S S, O O O, C C C这三个结果:
    在这里插入图片描述
第二步:

对于一个序列中的所有连续帧,我们通过从t-1向t这样的反向计算( O F OF OF),出于这个目的,我们采用pytorch的框架,使用FlowNet2在MPI Sintel 数据集上的预训练模型( F F F):
        在这里插入图片描述

第三步:匹配阶段

首先提一下 f f f:代表当前帧的前多少帧。
对于第 t t t 帧图,我们要先计算出前 f f f 帧的这几个值:

  • 候选对象 O O
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值