Robust Medical Instrument Segmentation Challenge 2019拜读

0. 摘要

腹腔镜器械的术中跟踪通常是计算机和机器人辅助干预的先决条件。 虽然文献中已经提出了许多基于内窥镜视频图像检测、分割和跟踪医疗器械的方法,但仍有待解决的关键限制:
首先,鲁棒性。即最先进方法的可靠性能 在具有挑战性的图像上运行时(例如在存在血液、烟雾或运动伪影的情况下)。
其次,泛化能力。为特定医院的特定干预训练的算法应该推广到其他干预或机构。
为了促进这些限制的解决方案,我们组织了强大的医疗器械分割 (ROBUST-MIS) 挑战赛,作为一项国际基准竞赛,特别关注算法的稳健性和泛化能力。在内窥镜图像处理领域,我们的挑战首次包括二进制分割任务,还涉及多实例检测和分割。该挑战基于一个手术数据集,该数据集包含 10,040 个带注释的图像,这些图像是从三种不同类型的手术的总共 30 个手术过程中获取的。三个任务(二进制分割、多实例检测和多实例分割)的竞争方法的验证在三个不同的阶段进行,训练和测试数据之间的域差距越来越大。结果证实了最初的假设,即算法性能随着域间隙的增加而下降。虽然性能最佳的算法的平均检测和分割质量很高,但未来的研究应该集中在小型、交叉、移动和透明仪器(零件)的检测和分割上。

1. 介绍

2. 方法

2.1 挑战的任务

  • 确定用于仪器检测和分割的鲁棒性方法
  • 评估所提出方法的泛化能力
  • 识别使图像特别具有挑战性的图像属性(例如烟雾、出血、运动伪影)

二进制分割任务,参与者必须使用二进制掩码提供精确的器械轮廓,“1”表示给定像素中存在手术器械,“0”表示不存在。
多实例分割任务,参与者必须通过分配代表不同医疗器械实例的数字“1”、“2”等来提供图像掩码。
多实例检测任务仅要求参与者检测和粗略定位视频帧中的仪器实例,其中位置可以用任意形式表示,例如边界框。
所有参与算法的泛化性和性能均分三个阶段进行评估,难度增加:
• 第 1 阶段:测试数据取自从中提取训练数据的程序(患者)。
• 第 2 阶段:测试数据取自与训练数据完全相同的手术类型,但取自训练中未包括的程序(患者)
• 第 3 阶段:与训练数据相比,测试数据取自不同但相似的手术类型(以及不同的患者)。
在算法提交给挑战赛之前,参与者只被告知第 1 阶段和第 2 阶段的手术类型;对于第三阶段,手术类型(乙状结肠切除术)被称为未知手术,以便测试算法泛化能力。

2.2 挑战的数据集

2.2.1 数据Recording

1) 数据来源
Storz内窥镜(All data was recorded with a Karl Storz Image 1 laparoscopic camera (Karl Storz SE & Co. KG, Tuttlingen, Germany), with a 30◦ optic lens. The Karl Storz Xenon 300 was used as a light source.)
2) 数据采集
海德堡大学医院外科综合手术室(Data acquisition was executed during daily routine procedures at the Heidelberg University Hospital, Department of Surgery in the integrated operating room (Karl Storz OR1 FUSION R ).)
3) 图像特殊设置
a) 分辨率:从主视频中的 1920×1080 像素 (HD) 降低到 960×540
4) 数据种类
三种不同类型手术(即 10 种直肠切除术、10 种直肠结肠切除术和 10 种乙状结肠切除术)的 30种微创外科手术视频。

2.2.2 数据提取

图像数据提取的步骤:
1) 删除相机在腹部以外的帧,保证隐私安全;
2) 所有视频以1帧/秒的速率进行采样,提取4,456个帧;加上手术阶段转换期间提取额外帧,总10040帧。
标签: 手术阶段的标签,可用EndVisSub Surgical Workflow Analysis in the SensorOR

2.2.3 标签生成

如下步骤生成Label:
1) 首先,公司Understand AI对提取的帧进行初始分割。
2) 挑战组织者分析注释,确定不一致并就注释协议达成一致。
3) 由 14 名工程师和 4 名医学生组成的团队审查所有注释,并在必要时根据注释协议对其进行改进。
4) 在模棱两可或不清楚的情况下,由两名工程师和一名医学生组成的团队生成共识注释。
5) 质量控制,一位医学专家检查所有精细的分割掩码并报告潜在的错误。
6) 标签的最终决定是由一个由医学专家和工程师组成的团队做出。

2.3 评价方法

2.3.1 Metrics指标

1) Binary Segmentation
Dice Similarity Coefficient (DSC) 、Normalized Surface Dice (NSD)

  • Dice Similarity Coefficient (DSC)

在这里插入图片描述
Y 和 Y ^ \hat{Y} Y^ 分别是一帧图像的真实分割图和预测分割图。这里简单介绍一下Dice系数:
Dice系数通常用来评价语义分割的指标,Dice系数是一种集合相似度度量函数,通常用于计算两个样本的相似度,取值范围在[0,1]:
在这里插入图片描述
其中 |X∩Y| 是X和Y之间的交集,|X|和|Y|分表表示X和Y的元素的个数,其中,分子的系数为2,是因为分母存在重复计算X和Y之间的共同元素的原因。

  • Normalized Surface Dice (NSD)
    待续
  • 2) Multi-instance Detection
    Mean Average Precision (mAP)。细节待续
  • 3) Multiple Instance Segmentation
    Multiple Instance Dice Similarity Coefficient (MI_DSC)、Multiple Instance Normalized Surface Dice (MI_NSD)。细节待续

2.3.2 Ranking评分

在这里插入图片描述

3. 结果

3.1. Method descriptions of participating algorithms

  1. Team caresyntax: Single network fits all
     多实例分割的核心思想:应用基于单个网络的 Mask R-CNN,两个分支共享卷积层。
     泛化:仅提供有限的训练数据,帮助网络更好地泛化。
     细节:使用经过预训练的 Mask R-CNN 版本,不包括视频中的任何时间信息。
     优势:方法大大优于基于 U-Net 的模型。

  2. Team CASIA_SRL: Dense pyramid attention network for robust medical instrument segmentation
     网络:Dense Pyramid Attention Network for multi-instance segmentation
     问题:光照变化、手术器械尺寸变化
     注意力模块:获取二阶统计数据,为提取像素间的语义关系和全局上下文

  3. Team Djh: A RASNet-based deep learning approach for the binary segmentation task
     网络:Refined Attention Segmentation Network
     预处理:数据增强。超参数调优
     特点:capture low-level and higher-level features

  4. Team fisensee: OR-UNet
     网络:optimized robust residual 2D U-Net (OR-UNet)
     模型细节:sum of DSC and cross-entropy loss and a multi-scale loss

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值