分割一切还不够，还要检测一切、生成一切，SAM二创开始了

最新推荐文章于 2024-02-17 13:30:53 发布

自动驾驶之心

最新推荐文章于 2024-02-17 13:30:53 发布

阅读量565

点赞数 1

文章标签：深度学习计算机视觉人工智能 python 机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247536231&idx=5&sn=ace046bfb095b1bfece8cf5690774935&chksm=ceb863aef9cfeab80fe14238b382d2f1c29da200de6f4ad9b83e8503645bb9fc0525ebb6e82f&scene=126&sessionid=0

版权

编辑 | 机器之心

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【全栈算法】技术交流群

论文刚发布两天，「二创」就开始了。

AI 技术的迭代，已经以天为单位。所以，如果你有什么好的想法，最好赶紧做，不然睡一觉可能就被抢先了。

这个被很多人看好的 idea 源于 Meta 两天前发布的「分割一切」AI 模型（Segment Anything Model，简称 SAM）。Meta 表示，「SAM 已经学会了关于物体的一般概念，可以为任何图像或视频中的任何物体生成 mask，甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用，可以涵盖广泛的用例，并且可以在新的图像『领域』即开即用，无需额外的训练。」

这一模型的发布在计算机视觉领域引发轰动，预示着 CV 也将走向「一个全能基础模型统一某个（某些？全部？）任务」的道路。当然，大家对此早有预感，但没想到这一天来得如此之快。

比基础模型迭代更快的是研究社区「二创」的速度。论文才刚刚发布两天，几位国内工程师就基于此想出了新的点子并将其付诸实践，组建出了一个不仅可以「分割一切」，还能「检测一切」、「生成一切」的视觉工作流模型。

具体来说，他们使用一个 SOTA 的 zero-shot 目标检测器（Grounding DINO）提取物体 box 和类别，然后输入给 SAM 模型出 mask，使得模型可以根据文本输入检测和分割任意物体。另外，他们还将其和 Stable Diffusion 结合做可控的图像编辑。

这个三合一模型项目名叫 Grounded Segment Anything，三种类型的模型既可以分开使用，也可以组合使用。

项目链接：https://github.com/IDEA-Research/Grounded-Segment-Anything

对于 Grounded Segment Anything 未来的用途，项目作者构想了几种可能：

可控的、自动的图像生成，用于构建新的数据集；
提供更强的基础模型与分割预训练；
引入 GPT-4，进一步激发视觉大模型的潜力；
一条自动标记图像（带 box 和 mask）并生成新图像的完整 pipeline；
……

安装

要实现 SAM+Stable Diffusion 需要一些安装步骤。首先该项目要求 Python 3.8 以上版本，pytorch 1.7 以上版本，torchvision 0.8 以上版本，并安装相关依赖项。项目作者还建议安装支持 CUDA 的 PyTorch 和 TorchVision。

然后，按照如下代码安装 Segment Anything：

python -m pip install -e segment_anything

安装 GroundingDINO：

python -m pip install -e GroundingDINO

以下是可选依赖项，这些对于掩码后处理、以 COCO 格式保存掩码、example notebook 以及以 ONNX 格式导出模型是必需的。另外，该项目还需要 jupyter 来运行 example notebook。

pip install opencv-python pycocotools matplotlib onnxruntime onnx ipykernel

运行 GroundingDINO demo

下载 groundingdino 检查点：

cd Grounded-Segment-Anything


wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

运行 demo：

export CUDA_VISIBLE_DEVICES=0
python grounding_dino_demo.py \
  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \
  --grounded_checkpoint groundingdino_swint_ogc.pth \
  --input_image assets/demo1.jpg \
  --output_dir "outputs" \
  --box_threshold 0.3 \
  --text_threshold 0.25 \
  --text_prompt "bear" \
  --device "cuda"

模型预测可视化将保存在 output_dir 中，如下所示：

运行 Grounded-Segment-Anything Demo

下载 segment-anything 和 ground- dino 的检查点:

cd Grounded-Segment-Anything


wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth
wget https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth

运行 demo：

export CUDA_VISIBLE_DEVICES=0
python grounded_sam_demo.py \
  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \
  --grounded_checkpoint groundingdino_swint_ogc.pth \
  --sam_checkpoint sam_vit_h_4b8939.pth \
  --input_image assets/demo1.jpg \
  --output_dir "outputs" \
  --box_threshold 0.3 \
  --text_threshold 0.25 \
  --text_prompt "bear" \
  --device "cuda"

模型预测可视化将保存在 output_dir 中，如下所示：

运行 Grounded-Segment-Anything + Inpainting Demo

CUDA_VISIBLE_DEVICES=0
python grounded_sam_inpainting_demo.py \
  --config GroundingDINO/groundingdino/config/GroundingDINO_SwinT_OGC.py \
  --grounded_checkpoint groundingdino_swint_ogc.pth \
  --sam_checkpoint sam_vit_h_4b8939.pth \
  --input_image assets/inpaint_demo.jpg \
  --output_dir "outputs" \
  --box_threshold 0.3 \
  --text_threshold 0.25 \
  --det_prompt "bench" \
  --inpaint_prompt "A sofa, high quality, detailed" \
  --device "cuda"

运行 Grounded-Segment-Anything + Inpainting Gradio APP

python gradio_app.py

参考链接：

https://zhuanlan.zhihu.com/p/620271321

https://www.zhihu.com/question/593914819/answer/2972925421

视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

自动驾驶之心

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分割一切还不够，还要检测一切、生成一切，SAM二创开始了

编辑| 机器之心点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【全栈算法】技术交流群论文刚发布两天，「二创」就开始了。AI 技术的迭代，已经以天为单位。所以，如果你有什么好的想法，最好赶紧做，不然睡一觉可能就被抢先了。这个被很多人看好的 idea 源于 Meta 两天前发布的「分割一切」AI 模型（Segment Anything Model，简称SA...
复制链接

扫一扫