Grounded-SAM真的能卷掉国内大多数标注工具

最新推荐文章于 2024-08-10 08:12:33 发布

王元启的生信记录

最新推荐文章于 2024-08-10 08:12:33 发布

阅读量4.2k

点赞数 2

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wcy1995427/article/details/130271075

版权

Grounded-SAM是基于SAM的增强版，整合了图像分割、检测和生成功能，与BLIP和StableDiffusion协同工作。它支持语音输入和局部替换，适用于自动数据标注，但复杂场景下可能需人工校验。此外，该开源项目已集成聊天机器人并提供多种互动功能，有望在内容创作和编辑领域广泛应用。

摘要由CSDN通过智能技术生成

万能的分割模型：SAM + SD + chatGPT + Grounded

就在 SAM 发布后一天，国内团队在此基础上搞出了一个进化版本「Grounded-SAM」。
Grounded-SAM 把 SAM 和 BLIP、Stable Diffusion 集成在一起，将图片「分割」、「检测」和「生成」三种能力合一，成为最强 Zero-Shot 视觉应用。

说一百遍不如亲自体验一遍，按照这个链接进行了深度学习环境配置：https://github.com/IDEA-Research/Grounded-Segment-Anything，目前这个开源项目在github上已经有7.1kstar,最新功能更新了聊天机器人，实现语音输入，一键更换语义场景等，结合SD可以做到局部替换功能，电脑配置太低不建议，楼主3060TI显卡只能算是勉强分析。

这个功能主要是通过whisper模块对语音进行转换，直接对图片的检测对象进行替换，例如将狗替换成猴子，看图片确实是毫无违和感，这部分功能相信在不久的将来应该能实现落地使用

在这里插入图片描述

这个功能是实现自动数据标注，包括标签信息及预测概率，有点类似于YOLOV8系列，借助SAM分割万物的思想可以直接对图片中的所有场景进行分割及分类标注。使用Tag2Text直接生成标签，使用Grounded-SAM进行box和mask生成。Tag2Text 具有卓越的标记和字幕功能。使用BLIP生成标题，使用chatGPT提取标签，使用Ground-SAM生成框和MASK图片。浅浅的谈一句，针对简单场景，确实该项目有很多过人的优势，复杂场景的实际应用还有待商榷，目前看来最大的一个问题是分割的场景会存在分割过细的情况，需要手动人工check,而且并不是所有参数对不同图片都适用，针对训练的大量图片，实际自动标注效果还有待优化。稍加优化，该模型的落地应用应该不错！！！
其他更多有趣的功能，比如更换头发颜色、背景、交互式应用等。这些模块感觉就是抖音的下一个热点！！！

如有小伙伴有需求，可联系楼主进行环境配置、小工具输出等，相信你也会成为下一个流量风口，可私聊！！！

如有侵权，请联系作者进行删除！！！！！！
欢迎转载，欢迎大家一起讨论！！！！！

王元启的生信记录

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。