【论文阅读笔记】Surgical-DeSAM: decoupling SAM for instrument segmentation in robotic surgery

最新推荐文章于 2024-10-12 16:47:19 发布

咔叽布吉

最新推荐文章于 2024-10-12 16:47:19 发布

阅读量371

点赞数 4

分类专栏：论文阅读学习文章标签：论文阅读笔记

本文链接：https://blog.csdn.net/qq_46056318/article/details/140797474

版权

论文阅读学习专栏收录该内容

34 篇文章 3 订阅

订阅专栏

1.论文介绍

Surgical-DeSAM: decoupling SAM for instrument segmentation in robotic surgery
Surgical-DeSAM：解耦SAM用于机器人手术中的器械分割
2024年 International Journal of Computer Assisted Radiology and Surgery

Code Paper

2.摘要

最近的SAM在各种应用中展示了点、文本或边界框提示的令人印象深刻的性能。然而，在安全关键的手术任务中，提示是不可能的，这是由于（1）缺乏用于监督学习的每帧提示，（2）在实时跟踪应用中逐帧提示是不现实的，以及（3）注释离线应用的提示是昂贵的。
本文开发 Surgical-DeSAM 生成自动边界框提示解耦SAM，以获得实时机器人手术中的器械分割。我们利用一个常用的 检测架构，DETR，并微调它，以获得边界框提示的工具。然后，我们采用DETR编码器代替图像编码器，并微调提示编码器和掩码解码器，以获得手术器械的实例分割的去耦SAM（DeSAM）。为了提高检测性能，我们采用了Swin-Transformer来更好地表示特征。结果所提出的方法已在MICCAI手术器械分割挑战EndoVis 2017和2018的两个公开数据集上得到验证。我们的方法的性能还与SOTA仪器分割方法进行了比较，并证明了显着的改进，EndoVis 2017和2018的骰子指标分别为89.62和90.70。

Keywords：SAM、分割加检测、DETR、实时、自动生成框提示

3.Introduction

虽然有些手术器械的实例分割模型在手术数据集上具有显著先进的实例分割性能，但它们尚未完全利用最新分割模型或高级对象检测模型的功能，这为进一步改进和增强提供了机会。众所周知的分割基础模型SAM（segment anything model）以及SAM在医学图像分割和手术器械分割中的适应性在语义分割方面表现出了很大的前景。但是，它们不能产生对象标签分割，并且在部署期间需要交互式提示，这是不现实的。

在这项工作中，（1）提出了Surgical-DeSAM，以生成自动边界框提示，用于解耦SAM;（2）设计了Swin-DETR，通过用Swin-transformer代替ResNet作为DETR的图像特征提取器;（3）通过用DETR的编码器替换SAM的图像编码器来解耦SAM;（4）在EndoVis 17和EndoVis 18两个公开可用的手术器械分割数据集上进行验证;以及（5）证明与SOTA模型相比的稳健性。

4.网络模型详解

SAM
SAM，由重量级的图像编码器、提示编码器和轻量级的掩码解码器组成。图像编码器可以直接从输入图像中提取图像特征，而不需要骨干模型，而其轻量级的提示编码器可以动态地将任何给定的提示实时转换为嵌入向量。这些嵌入然后由解码器处理，生成精确的分割掩码。SAM具有各种类型，包括点、框、文本或掩码，这限制了SAM直接用于现实世界应用的能力，例如手术期间的手术器械分割。为手术视频的每一帧提供提示是不现实的。

DETR
DETR是一种基于Transformer的检测器，称为DETR（检测Transformer），用于对象检测。它由CNN主干、编码器-解码器Transformer和前馈网络（FFNs）。CNN骨干是常用的ResNet50，它提取特征（R∈d×H×W）表示。然后，主干的输出通过空间位置编码传递到Transformer编码器，并生成对象查询和编码器内存。解码器接收编码器输出，并使用FFN预测具有中心坐标、高度和宽度的类标签和边界框。

Surgical-DeSAM
在这里插入图片描述
如图所示，Surgical-DeSAM，通过设计（1）Swin-DETR：用Swin-transformer替换DETR的ResNet 50，设计一个有效的手术器械检测模型;（2）解耦SAM：用DETR Encoder替换SAM图像编码器，训练端到端检测，提示SAM的掩膜解码器分割手术器械。

Swin-DETR：
DETR利用ResNet50作为CNN的主干来提取特征表示。然而，由于基于视觉变换器的网络表现出比CNN更好的性能，本文用基于变换器的Swin-transformer 架构（Swin-DETR）替换了骨干网络，如图所示。Swin-Transformer引入了基于移位窗口的分层Transformer，以在自注意力计算中增加更高的效率。值得注意的是，Swin-Transformer的输出可以直接馈送到DETR编码器，其中有一个额外的步骤将ResNet50特征的空间维度折叠成一维，以将其转换为Transformer的输入序列。总的来说，SWIN-DETR由Swin-Transformer组成，用于提取图像特征，然后将其传递到Transformer编码器-解码器和FFN，以获得最终的对象类预测和相应的边界框。更具体地说，ResNet50需要转换特征图由 $d \times H \times W$ 到 $f \in d \times H W$ 通过折叠空间维度，其中Swin变换器直接产生 $f_{swin} ∈d×HW$ 。

Decoupling SAM：
由于SAM和DETR的图像编码器执行类似的特征提取，因此我们通过移除图像编码器并将DETR编码器输出直接馈送到掩码解码器来解耦SAM。这有助于使用DETR预测的检测提示和仅提示编码器和掩码解码器的解耦SAM来训练端到端分割模型。在训练期间，我们利用检测边界框和分割掩码的地面实况来端到端地训练两个模型。为了计算损失，我们在DETR之后采用结合GIoU 和l1损失的盒损失Lbox进行检测任务，并在分割时采用骰子系数相似性（DSC）损失Ldsc：
在这里插入图片描述