ECCV 2024 | 汇总！7项基于SAM万物分割模型的研究工作！

最新推荐文章于 2025-03-19 10:35:25 发布

机器学习与AI生成创作

最新推荐文章于 2025-03-19 10:35:25 发布

阅读量2.1k

点赞数 16

本文链接：https://blog.csdn.net/lgzlgz3102/article/details/142892649

版权

1、CC-SAM: SAM with Cross-feature Attention and Context for Ultrasound Image Segmentation

#ECCV2024 #SAM #图像分割 #医学图像

Segment Anything Model (SAM) 在自然图像分割领域取得显著成功，但在医学成像领域的部署遇到了挑战。具体来说，该模型在处理具有低对比度、模糊边界、复杂形态和小尺寸物体的医学图像时遇到困难。

为解决这些挑战，并增强 SAM 在医学领域的性能，引入全面修改。首先，将一个冻结的卷积神经网络 (CNN) 分支作为图像编码器整合到其中，通过新的变分注意融合模块与 SAM 的原始 Vision Transformer (ViT) 编码器协同工作。这种集成增强了模型捕获局部空间信息的能力，这在医学图像中常常至关重要。

此外，为进一步优化 SAM 用于医学成像，在 ViT 分支中引入特征和位置适配器，优化编码器的表示。发现，与目前用于超声波医学分割的微调 SAM 的提示策略相比，使用作为 SAM 文本提示的文本描述有助于显著提高性能。利用 ChatGPT 的自然语言理解能力，生成提供上下文信息和引导 SAM 的提示，使其更好地理解超声医学图像的细微差别并提高分割准确性。

2、Crowd-SAM: SAM as a Smart Annotator for Object Detection in Crowded Scenes

#ECCV2024 #SAM #目标检测

目标检测是一项重要任务，在各种场景中都有应用。通常需要大量标签进行训练，这在拥挤场景下尤为耗时。近年来，Segment Anything Model (SAM) 已经成为一种功能强大的零样本分割器，提供了一种新的实例分割方法。然而，当处理拥挤场景中经常出现遮挡的物体时，SAM 及其变种的准确性和效率通常会受到影响。

本文提出 Crowd-SAM，一个基于 SAM 的框架，旨在以最少的可学习参数和最少的标注图像成本提升 SAM 在拥挤场景中的性能。引入一个高效的提示采样器 (EPS) 和一个部分-整体判别网络 (PWD-Net)，促进了掩模的选择，并有助于提高拥挤场景下的准确性。

尽管简单，Crowd-SAM 在包括 CrowdHuman 和 CityPersons 在内的多个基准测试中与最先进的全监督目标检测方法相媲美。https://github.com/FelixCaae/CrowdSAM

3、Enhancing Recipe Retrieval with Foundation Models: A Data Augmentation Perspective

#ECCV2024 #SAM #视觉语言模型 #GPT #多模态学习

在共同的嵌入空间中学习食谱和食物图像表示对于跨模态食谱检索是一个非常重要但关键的问题。本文提出一个新视角，通过利用基础模型进行数据增强来解决这一问题。利用 Llama2 和 SAM 出色的能力，提出通过提取与对应部分相关的信息来增强食谱和食物图像。

具体而言，用 Llama2 从食谱生成文本描述，旨在捕捉食物图像的视觉线索，而 SAM 用于生成与食谱中关键成分对应的图像分割。为充分利用增强数据，引入 Data Augmented Retrieval framework (DAR) 来增强跨模态检索的食谱和图像表示学习。首先向经过预训练的 CLIP 模型注入适配器层以降低计算成本，而不是完全微调所有参数。此外，提出多层圆损失来对齐原始和增强数据对，为正负对分配不同的惩罚。

在 Recipe1M 数据集上， DAR 在很大程度上优于所有现有方法。大量消融研究验证 DAR 的每个组件的有效性。https://github.com/Noah888/DAR

4、Generalized SAM: Efficient Fine-Tuning of SAM for Variable Input Image Sizes

#ECCV2024 #SAM #视觉语言模型 #多模态学习

最近关于改进基础模型微调效率的研究很多。这篇论文提出一种新的高效微调方法，允许Segment Anything Model (SAM)的输入图像大小可变。SAM是一种在大型数据集上训练的图像分割强大基础模型，但需要微调以识别任意类别。SAM的输入图像大小固定为1024×1024，导致训练过程中存在大量的计算需求。此外，固定的输入图像大小可能导致图像信息的丢失，例如由于固定的纵横比。

为解决这个问题，提出Generalized SAM (GSAM)。不同于之前方法，GSAM是第一个在SAM训练过程中应用随机裁剪的方法，从而显著降低训练的计算成本。对各种类型和各种像素计数的数据集进行的实验表明，GSAM在训练上比SAM和其他SAM微调方法更加高效，实现了相当或更高的准确性。https://github.com/usagisukisuki/G-SAM

5、IRSAM: Advancing Segment Anything Model for Infrared Small Target Detection

#ECCV2024 #SAM #视觉语言模型 #目标检测

直接利用预训练的 SAM 进行红外小目标检测 (IRSTD) 任务往往难以取得令人满意的性能，原因是自然图像与红外图像之间存在明显的域差异。与可见光相机不同，热像仪通过捕捉红外辐射来显示物体的温度分布。小目标往往在目标边界显示微妙的温度过渡。

为解决这个问题，提出针对 IRSTD 的 IRSAM 模型，改进SAM的编码器-解码器架构，以更好学习红外小物体的特征表示。具体来说，设计基于 Perona-Malik 扩散 (PMD) 的块，并将其整合到 SAM 编码器的多个层级中，以帮助其捕捉关键结构特征并抑制噪声。

此外，设计一个用于融合来自编码器的多粒度特征的 Granularity-Aware 解码器 (GAD)，以捕捉长距离建模中可能丢失的结构信息。在包括 NUAA-SIRST、NUDT-SIRST 和 IRSTD-1K 在内的公共数据集上进行的大量实验验证了 IRSAM 的设计选择，以及它在代表性最先进方法上的显著优越性。https://github.com/IPIC-Lab/IRSAM

6、Lite-SAM Is Actually What You Need for Segment Everything

#ECCV2024 #SAM #视觉语言模型 #多模态学习

Segment Anything model (SAM) 庞大的计算资源需求仍然是一个限制因素。许多方法如 MobileSAM、Edge-SAM 和 MobileSAM-v2，已探索轻量级解决方案。然而，它们用的传统 Grid Search 采样策略或两阶段连接方法，这些方法不允许端到端训练，严重限制了全部分割 (SegEvery) 的性能。

本文介绍Lite-SAM，一个有效端到端解决方案，旨在降低计算成本和冗余。Lite-SAM 由四个主要组件组成：一个简化的 CNN-Transformer 混合编码器 (LiteViT)、一个自动提示网络 (AutoPPN)、一个传统提示编码器和一个掩码解码器。所有这些组件都集成在 SAM 框架内。LiteViT 是一个高性能的轻量级骨干网络，只有 1.16M 参数，相较于最轻的现有骨干网络 Shufflenet，参数减少了 23%。还引入AutoPPN，一种新的端到端提示框和点生成方法。这对传统 Grid Search 采样方法的改进，其独特设计易于整合到任何 SAM 系列算法中，扩展了其可用性。

在各种公共和私有数据集上对 Lite-SAM 进行了广泛基准测试。评估涵盖了广泛的通用度量标准，包括参数数量、SegEvery 执行时间和准确性。研究结果表明，Lite-SAM 以仅 4.2M 参数高效运行，明显优于其对手，在提升 SAM、MobileSAM、Edge-SAM、EfficientViT-SAM 和 MobileSAM-v2 的准确性的同时，性能提升了 43x、31x、20x、21x 和 1.6x，体现 Lite-SAM 在性能和精度之间实现最佳平衡的能力，设定一个新的最先进 (SOTA) 基准。

7、MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis

#ECCV2024 #图像分割 #SAM #视觉语言模型 #多模态学习

提出MeshSegmenter，简单有效的框架，专为零样本3D语义分割而设计。该模型成功将2D分割模型的强大能力扩展到3D网格，实现在不同网格和分割描述之间准确的3D分割。

具体来说，利用Segment Anything Model (SAM)模型从3D形状生成的图像中分割目标区域。鉴于纹理对分割的重要性，还利用预训练的扩散模型从3D形状生成具有纹理的图像，并利用SAM从具有纹理的图像中分割目标区域。纹理补充形状以进行分割，并有助于在几何上不突出的区域实现精确的3D分割，例如在汽车网格内分割汽车门。

为实现3D分割，从不同视角渲染2D图像，并对带有纹理和不带纹理的图像进行分割。最后，开发一个多视图重新投票方案，将各种视角的2D分割结果和置信分数整合到3D网格上，确保分割结果的3D一致性，并消除特定视角的不准确性。

通过这些创新，MeshSegmenter可以在定量和定性上提供稳定可靠的3D分割结果。https://github.com/zimingzhong/MeshSegmenter

关注公众号【机器学习与AI生成创作】，更多精彩等你来读

如何跟进 AIGC+CV 视觉前沿技术？

CVPR 2024 | diffusion扩散模型梳理！100+论文、40+方向！

ICCV 2023 | diffusion扩散模型方向！百篇论文

CVPR 2023 | 30个方向130篇！最全 AIGC 论文一口读完

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！