SAM(Segment Anything)家族最新作品——FastSAM

前言

从去年年底,nlp领域出现了大模型一统天下的局面,而在cv领域,美国社交媒体扛把子公司meta也推出了在图像分割领域的大模型——segment-anything,简称SAM。看名字就知道了,这个模型就是啥都可以分割,具体可以看看人官网推出的demo,效果那是相当惊艳。

其实SAM的提出还是想解决零样本学习的问题,就和nlp领域一样,构建chatGPT这种基座大模型,使其在绝大部分场景下分割效果足够惊艳,在其他没有学习过的场景下也能够达到一定的效果。

基于这个想法,作者首先提取一个分割大数据集,SA-1B,由数据引擎收集的 1100 万张多样化、高分辨率、许可和隐私保护图像和 11亿高质量分割掩码组成。 同时,作者开源了 SA-1B 以帮助未来开发计算机视觉基础模型。注意到,SA-1B 将根据一项有利的许可协议发布,用于某些研究用途并保护研究人员。

在模型方面,作者在传统分割任务的图像编码器基础上,再添加了一个提示编码器,提示编码器考虑两组提示:稀疏(点、框、文本)和密集(掩码)。通过位置编码和每个提示类型的学习嵌入相加来表示点和框,并使用来自 CLIP 的现成文本编码器来表示自由格式文本。 密集提示(即掩码)使用卷积嵌入,并与图像嵌入逐元素求和。

SAM网络结构图
最终,SAM模型基本上达到了作者想要的效果,但是还是存在一些问题,比如,它可能会错过精细的结构,有时会产生不连贯的小组件的幻觉,并且不会像“放大”的计算密集型方法那样清晰地产生边界。同时,这次 text-to-mask 任务的尝试是探索性的,并不完全可靠,尽管可以相信它可以通过更多的努力得到改进。 虽然 SAM 可以执行许多任务,但尚不清楚如何设计实现语义和全景分割的简单提示。

但是其实SAM最大的问题,对于工业界来说,就是太慢了,很难做到实时性,模型结构还是比较复杂,虽然效果很惊艳,可能也只能让人望而却步。

正文

前言说了这么多,正是想引出本文的核心推荐的模型,FastSAM。

在SAM出现后的短短几个月,github上已经出现了基于这个思路的很多优秀的开源的工程,比如:Track-Anything, sd-webui-segment-anything, Anything-3D

而且都还取得了不错的认可度(star),FastSAM是一个由仅使用SAM作者发布的SA-1B数据集的2%进行训练的卷积神经网络(CNN) 分割任意模型。 FastSAM 在高达50倍的运行速度下,实现了与SAM方法相当的性能。

在这里插入图片描述
这张图就可以明显体现出FastSAM与SAM的速度对比

在这里插入图片描述
这是FastSAM的网络结构图

demo尝试

最后大家如果对这个项目感兴趣,也可以快速的在在线demo上体验一下

!git clone https://github.com/CASIA-IVA-Lab/FastSAM.git
!wget https://huggingface.co/spaces/An-619/FastSAM/resolve/main/checkpoints/FastSAM.pt

!pip install -r FastSAM/requirements.txt
!pip install git+https://github.com/openai/CLIP.git


!wget -P images https://raw.githubusercontent.com/facebookresearch/segment-anything/main/notebooks/images/dog.jpg

mport matplotlib.pyplot as plt
import cv2

image = cv2.imread('images/dog.jpg')
image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

original_h = image.shape[0]
original_w = image.shape[1]
print(original_w, original_h)
plt.figure(figsize=(10, 10))
plt.imshow(image)

输入图片是这样的
在这里插入图片描述

分割后的效果如下图
在这里插入图片描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

肥宅程序员aka不会游泳的鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值