摘要:
本文主要探讨了在不同的模式下,什么样的提示可以导致最佳的zero-shot性能。此外,研究还发现发现一个模式表明,盒大小的扰动将显著改变预测精度。最后,大量的实验表明,预测的掩码质量在不同的数据集之间差异很大。向SAM提供适当的提示(如边界框)将显著提高其性能。
提示方法:
在这项工作中,我们测试了三种不同的提示模式,并全面评估了它们在医学图像分割任务中的性能。如前所述,SAM可以以三种不同的模式运行:自动提示、点提示和框提示。对于自动提示模式,SAM将自动使用规则的点网格进行提示,并为每个点提示谓词一组掩码。对于框提示模式,我们首先根据每个对象的ground truth生成一个边界框,并将经过整理的边界框作为提示输入到具有不同抖动尺度的SAM中。最后,我们还尝试了点提示模式的不同设置。在单点提示设置下,我们选择策展边框的中心点作为提示。与大多数SAM模型的评估论文不同,我们没有使用ground truth mask的中心点作为提示,因为有时不规则形状的中心点会落在限定区域之外,我们认为这会给SAM模型一个糟糕的提示。然而,对于一些非连续蒙版,中心点仍然可能落在背景上,这可能会误导SAM模型。我们还测试了3个点和10个点设置的点提示模式。
无论在哪种提示设置下,SAM模型的零射击预测精度仍然低于常用的全监督方法训练的分割模型。另一个值得深入研究的话题是如何生成高质量的提示,因为从地面真相掩码中提取的提示在现实世界中不再可用。
提示的图如下所示。
发现在预测精度中观察到一个有趣的模式是随着抖动尺度的增加而降低。我们推测,在加入更多的扰动和抖动后,边界框可以覆盖更多的背景或不相关的区域。因此,我们也可以得出SAM模型的预测质量对箱体尺寸及其可靠性非常敏感。如何生成可靠且尺寸合适的框提示,将是SAM模型应用于不同领域的一个可能的研究课题。对于点提示模式,我们发现随着给定提示点的增加,预测的掩膜质量正在上升,并与框提示性能竞争。这种模式确实与我们的直觉一致。在我们的实验中,框提示模式胜过少量提示模式的原因可能很复杂。其中一个影响因素可能是一些异常的不均匀边界。对于边界不明确的区域,从掩模区域采样的几个点不能很好地代表不规则形状。
实验结果:
实验结果如下图所示。