今年早些时候,Meta AI 发布了他们的新开源项目: Segment Anything Model(SAM) ,在计算机视觉社区引起了巨大的轰动。SAM 是一种快速分割系统,它擅长于对不熟悉的物体和图像进行零样本泛化,而不需要额外的训练。
在本教程中,我将演示如何结合使用 SAM 和 GroundingDINO 以及Stable Diffusion 来创建一个接受文本作为输入的pipeline,以便使用生成式 AI 执行图像inpainting和outpainting。
在演示之前,总体了解下我们的pipeline:

系统先使用Grounding DINO 根据输入的文本进行对象检测,然后将对象检测结果作为输入 传递给 Segment Everything 得到图像掩码(Mask),这些掩码结合文本prompts 作为Stable Diffusion的输入,由SD来进行图像的重绘。
为了让大家对上述流程更清楚的理解,先介绍下 SAM,从官方宣传片得知,它擅长识别图片中的多对象,包括背景:

https://huggingface.co/spaces/segments/panoptic-segment-anything
Huggingface 有个空间,可以来尝试SAM:
比如针对下面左边图,输入对象类别:car,bus,person
右边图就能够识别每种类型的对象,并用不同的颜色标记出来。
比如你只想看识别出来的car:

这里只看识别出来的person:

还有人眼都看不清的 bus:

本文介绍了MetaAI的SegmentAnythingModel(SAM)如何与GroundingDINO和StableDiffusion结合,创建一个能接受文本输入的pipeline,实现图像的inpainting和outpainting。文章展示了SAM在对象识别和图像编辑中的应用潜力,以及如何通过编程操作这些模型进行复杂的图像处理。
最低0.47元/天 解锁文章
1388

被折叠的 条评论
为什么被折叠?



