解决问题:
特别是通过微调,SAM模型在医学分割领域取得了令人印象深刻的表现。然而,由于需要人工标注,SAM在医学图像分割中的应用面临着很大的挑战。这些包括标记点或划定分割区域的边界框,它们既耗时又昂贵。
贡献点:
在本文中引入MedLSAM,一种自动医学图像分割模型,旨在显著减少标注工作量。如下图所示,MedLSAM采用两阶段方法。第一阶段涉及到在体积医学图像中自动识别目标器官位置的few-shot定位bbox。后续阶段利用第一阶段生成的边界框,应用SAM模型进行精确的图像分割。该过程是完全自动的,消除了人工干预的需要。
给定任意大小的数据集,MedLSAM首先应用定位过程(MedLAM)来识别任何感兴趣的解剖区域的六个极值点(在z, x和y方向上)。这个过程的结果是生成一个3D边界框,包围目标器官或结构。随后,对于该3D边界框内的每个切片,生成相应的2D边界框。然后利用这些二维边界框对目标解剖结构进行精确分割,从而实现整个分割过程的自动化。
方法:
整体方法包括两个阶段:第一阶到在体积医学图像中自动识别目标器官位置的few-shot定位边界框。后续阶段利用第一阶段生成的边界框,应用SAM模型(使用的是MedSAM)进行精确的图像分割。
第一阶段:MedLAM,由相对距离回归(RDR)和多尺度相似性(MSS)构成。
首先于在3D图像中抽取两个大的patch,记做和
,经过一系列变换获得
和
。这涉及到将来自不同个体的3D扫描图像映射到统一的隐式3D解剖坐标系上,确保来自不同个体的相同解剖结构共享相同的坐标,这样就可以对与我们感兴趣的点共享相同隐式坐标的点执行初始的、粗略的定位。RDR模型旨在预测查询补丁xq与支持补丁xs之间的3D偏移量。
假设e∈R3为v的像素间距(某一像素中心到相邻像素中心的距离,像素是一个小方块),cq, cs∈R3分别为v中xq和xs的质心坐标(ground truth分割区域的质心坐标),则物理空间中从xq到xs的groud truth偏移量d ' qs可计算为:
利用双曲正切函数tanh和超参数r来决定dqs的上界和下界,从而覆盖最大的可行偏移量。
最后,为了测量dqs和d ' qs之间的差异,采用均方误差(MSE)损失函数:

我们从x的各种尺度特征映射中提取点c1对应的特征向量,并计算这些特征向量与x的相应尺度特征映射的相似度。在将结果相似图的大小调整为原始图像大小之后,我们将它们聚合起来。这个过程使我们能够在x中精确定位与c1点最相似的位置,从而进一步完善我们的定位。
第二阶段:
MedLSAM框架的推理阶段结合了MedLAM用于定位和MedSAM用于医学图像分割的优势,首先,我们利用MedLAM在查询图像中定位所需的地标。我们将定位任务定义为操纵智能体从随机初始位置向目标位置移动。从查询图像中的随机位置提取一个补丁,同时从支持图像中以预先指定的地标为中心提取一个支持补丁。在通过MedLAM模型处理这两个补丁后,我们得到一个3D偏移量,该偏移量表示查询和目标位置之间的估计相对空间位移。通过基于该偏移量更新代理的位置,我们实现了查询图像中地标的粗略定位。利用MedLAM的多尺度相似度(Multi - Scale Similarity, MSS)分量来细化地标定位。我们提取查询图像中粗定位点及其在支持图像中对应点周围的多尺度特征图,进行相似度计算,并对相似度图进行聚合,确定查询图像中特征相似度最高的位置。该方法显著提高了地标定位的精度。在成功地识别出地标之后,我们进入分割阶段。为此,我们同时利用了SAM和MedSAM, MedSAM是SAM的一种特殊变体,针对医学图像数据集进行了微调。这两个模型都是我们分割任务的基础。SAM的多功能性和MedSAM对特定领域的适应性帮助我们提供了健壮的分割结果,从而提高了MedSLAM系统的整体效率。
