SAM(Segment Anything)家族最新作品——FastSAM

最新推荐文章于 2024-04-30 16:47:57 发布

肥宅程序员aka不会游泳的鱼

最新推荐文章于 2024-04-30 16:47:57 发布

阅读量2.4k

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42280271/article/details/131431516

版权

前言

从去年年底，nlp领域出现了大模型一统天下的局面，而在cv领域，美国社交媒体扛把子公司meta也推出了在图像分割领域的大模型——segment-anything，简称SAM。看名字就知道了，这个模型就是啥都可以分割，具体可以看看人官网推出的demo，效果那是相当惊艳。

其实SAM的提出还是想解决零样本学习的问题，就和nlp领域一样，构建chatGPT这种基座大模型，使其在绝大部分场景下分割效果足够惊艳，在其他没有学习过的场景下也能够达到一定的效果。

基于这个想法，作者首先提取一个分割大数据集，SA-1B，由数据引擎收集的 1100 万张多样化、高分辨率、许可和隐私保护图像和 11亿高质量分割掩码组成。同时，作者开源了 SA-1B 以帮助未来开发计算机视觉基础模型。注意到，SA-1B 将根据一项有利的许可协议发布，用于某些研究用途并保护研究人员。

在模型方面，作者在传统分割任务的图像编码器基础上，再添加了一个提示编码器，提示编码器考虑两组提示：稀疏（点、框、文本）和密集（掩码）。通过位置编码和每个提示类型的学习嵌入相加来表示点和框，并使用来自 CLIP 的现成文本编码器来表示自由格式文本。密集提示（即掩码）使用卷积嵌入，并与图像嵌入逐元素求和。

SAM网络结构图
最终，SAM模型基本上达到了作者想要的效果，但是还是存在一些问题，比如，它可能会错过精细的结构，有时会产生不连贯的小组件的幻觉，并且不会像“放大”的计算密集型方法那样清晰地产生边界。同时，这次 text-to-mask 任务的尝试是探索性的，并不完全可靠，尽管可以相信它可以通过更多的努力得到改进。虽然 SAM 可以执行许多任务，但尚不清楚如何设计实现语义和全景分割的简单提示。

但是其实SAM最大的问题，对于工业界来说，就是太慢了，很难做到实时性，模型结构还是比较复杂，虽然效果很惊艳，可能也只能让人望而却步。

正文

前言说了这么多，正是想引出本文的核心推荐的模型，FastSAM。

在SAM出现后的短短几个月，github上已经出现了基于这个思路的很多优秀的开源的工程，比如：Track-Anything, sd-webui-segment-anything, Anything-3D

而且都还取得了不错的认可度（star），FastSAM是一个由仅使用SAM作者发布的SA-1B数据集的2％进行训练的卷积神经网络（CNN）分割任意模型。 FastSAM 在高达50倍的运行速度下，实现了与SAM方法相当的性能。

在这里插入图片描述
这张图就可以明显体现出FastSAM与SAM的速度对比

在这里插入图片描述
这是FastSAM的网络结构图

demo尝试

最后大家如果对这个项目感兴趣，也可以快速的在在线demo上体验一下

!git clone https://github.com/CASIA-IVA-Lab/FastSAM.git
!wget https://huggingface.co/spaces/An-619/FastSAM/resolve/main/checkpoints/FastSAM.pt

!pip install -r FastSAM/requirements.txt
!pip install git+https://github.com/openai/CLIP.git


!wget -P images https://raw.githubusercontent.com/facebookresearch/segment-anything/main/notebooks/images/dog.jpg

mport matplotlib.pyplot as plt
import cv2

image = cv2.imread('images/dog.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

original_h = image.shape[0]
original_w = image.shape[1]
print(original_w, original_h)
plt.figure(figsize=(10, 10))
plt.imshow(image)

输入图片是这样的
在这里插入图片描述

分割后的效果如下图
在这里插入图片描述

肥宅程序员aka不会游泳的鱼

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
SAM(Segment Anything)家族最新作品——FastSAM

从去年年底，nlp领域出现了大模型一统天下的局面，而在cv领域，美国社交媒体扛把子公司meta也推出了在图像分割领域的大模型——segment-anything，简称。看名字就知道了，这个模型就是啥都可以分割，具体可以看看人官网推出的，效果那是相当惊艳。其实SAM的提出还是想解决零样本学习的问题，就和nlp领域一样，构建chatGPT这种基座大模型，使其在绝大部分场景下分割效果足够惊艳，在其他没有学习过的场景下也能够达到一定的效果。
复制链接

扫一扫