[ComfyUI]Facebook最强人体分割大师Sapiens 吊打SAM2,高达27种切割部位选择

最近又出来个很强的人体分割大师Sapiens,多种部位遮罩获取,真的强,必须安装体验一下。

01 介绍

今天介绍的这个厉害的工具叫Sapiens,是Meta Reality Labs (FaceBook 实验室) 推出的。

Sapiens 为以人为中心的视觉任务提供了一套全面的套件(例如,2D 姿势(pose)、部分分割(seg)、深度(depth)、法线(normal)等)。该模型系列针对 3 亿张人类图像进行了预训练,并对无约束条件表现出出色的泛化能力。这些模型还专为提取高分辨率特征而设计,已在 1024 x 1024 图像分辨率和 16 像素补丁大小下进行了本机训练。

官方给出的几组效果图:

目前我主要看中里面的seg分割这块,里面包含了27种切割部位,很详细。

官方也给出了一些在线测试地址,感兴趣可以去玩玩:

论文:

https://arxiv.org/abs/2408.12569

原项目:

https://github.com/facebookresearch/sapiens

Demo:

https://huggingface.co/spaces/facebook/sapiens-seg https://huggingface.co/spaces/facebook/sapiens-pose https://huggingface.co/spaces/facebook/sapiens-depth https://huggingface.co/spaces/facebook/sapiens-normal

02 安装使用

2.1 插件安装

目前Sapiens已经集成到ComfyUI了,在节点管理器上搜 Sapiens 即可。

2.2、模型下载

这个插件模型还挺多,涉及seg、pose、depth和normal这四种,每个模型都有不同的规格,有0.3b,0.6b,1b,2b等,不过官方推荐用1b或者2b,具体看各位自己配置是否支持,完整的下载列表如下,我网盘提供的是1b和2b的。

• seg 身体部位分割
○ https://hf-mirror.com/facebook/sapiens-seg-0.3b-torchscript
○ https://hf-mirror.com/facebook/sapiens-seg-0.6b-torchscript
○ https://hf-mirror.com/facebook/sapiens-seg-1b-torchscript
• pose 2D 姿势估计
○ https://hf-mirror.com/facebook/sapiens-pose-0.3b-torchscript
○ https://hf-mirror.com/facebook/sapiens-pose-0.6b-torchscript
○ https://hf-mirror.com/facebook/sapiens-pose-1b-torchscript
• depth 深度估计
○ https://hf-mirror.com/facebook/sapiens-depth-0.3b-torchscript
○ https://hf-mirror.com/facebook/sapiens-depth-0.6b-torchscript
○ https://hf-mirror.com/facebook/sapiens-depth-1b-torchscript
○ https://hf-mirror.com/facebook/sapiens-depth-2b-torchscript
• normal 表面法线预测
○ https://hf-mirror.com/facebook/sapiens-normal-0.3b-torchscript
○ https://hf-mirror.com/facebook/sapiens-normal-0.6b-torchscript
○ https://hf-mirror.com/facebook/sapiens-normal-1b-torchscript
○ https://hf-mirror.com/facebook/sapiens-normal-2b-torchscript

还有一个yolo8m模型也要下载, yolo是pose必须的,官方的太复杂,不如yolo好用。

下载地址:

https://hf-mirror.com/Ultralytics/YOLOv8/tree/main

上面模型都下载好了后模型名称不要变动,统一放到 ComfyUI/models/sapiens/ 下面,格式如下,觉得自己下载麻烦的一会直接下载我提供的完整模型包即可。

03 使用介绍

核心节点就两个,如下图所示:

左边这个节点可以看到左边有seg、depth、normal、pose等选项,官方建议每次使用选一个就行,比如我想要提取头发遮罩,那就只选择seg这个模型即可,其他选项不用变动。

右边节点就两个选项需要变动

第一个是seg_select,里面有27种选项,必须要选择一项,表示要切割的部位

第二个是add_seg_index,简单的说这个选项就是对第一个选项的补充,有时候你想同时获取头发和脸的遮罩,那你第一个那边选择了头发,第二个这里输入脸部的索引值就行,有多个的话中间用逗号隔开。

可以用到的seg_select切割部位整整27个,后期还会继续增加:

完整工作流如下

接下来演示几个切割效果,还不错

切割头发:

切割头发和脸部

看到箭头这里没,就是额外选上了脸部

切割衣服

切割手+手臂

切割嘴唇

这有意思,这么小的部位也可以提取出来,这插件确实牛逼各位

姿势图:

这姿势图感觉怪怪的哈哈,这里注意,这时候图像要从pose_img这里拖出来,我之前忘了,一直用seg_img节点,导致看不到效果图,排查了好久。

深度图:

normal图:

最后我还和其他2个工具对比了下效果,还是Sapines效果最好,太棒了。

04 总结

以上就是Sapiens这个插件的介绍了,效果好用,值得下载使用。

如何学习Comfyui?

ComfyUI 和大家熟知的 WebUI 一样,都是 Stable Diffusion 的一种用户界面,一句话,一张图,随时随地创作任何内容

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的Comfyui资料包括Comfyui入门学习思维导图、商业级Comfyui工作流、视频教程、实战学习等录播视频免费分享出来。

图片

第一阶段(8天)初始入门

该阶段让大家对Comfyui有一个最前沿的认识,规避碎片化学习,对Comfyui的理解将超过 95% 的人。可以在相关讨论发表高级、不跟风、又接地气的见解,成为AI艺术创作领域的佼佼者。

  • 初次认识Comfyui

  • comfyui的底层工作原理

  • Comfyui跟webui之前的区别

  • 如何快速部署comfyui一键整合包在本地电脑

  • ComfyUI的插件安装与更新详解

  • ComfyUI共用Webui模型,节省硬盘空间

  • ComfyUI的基础操作,工具管理和界面汉化

  • 实现局部重绘功能

  • 精细控图第一步

  • BrushNet 1. 5/XL图像重绘

  • 使用Embedding提升出图质量操作

  • 使用二次采样,提升画质操作

  • 潜空间模块实现图像放大操作

  • 放大模型模块实现图像放大操作

第二阶段(15天)进阶应用

该阶段我们正式进入Comfyui进阶实战学习,学会构造私有知识库,扩展不同的艺术风格。快速根据甲方的要求改动高效出图。掌握智能绘图最强的AI软件,抓住最新的技术进展,适合所有需出图行业真·生产力大爆发!!!

  • SD3.5基础原理

  • SD3.5文本与图像的交互

  • SD3.5实际操作指南

  • f1ux新一代最强AI简介

  • f1ux不同模型按需分类

  • f1ux最强模型如何部署

  • f1ux_工作流操作指南

  • Contro1Net预处理节点操作

  • Contro1Net Canny实现精准控图操作

  • Contro1Net Depth实现深度控图操作

  • Contro1Net Openpose实现人物姿势控图操作

  • Contro1Net Dwpose实现精准控图操作

第三阶段(15天)工作流搭建

恭喜你,如果学到这里,所有设计类岗位你将拥有优先选择权,自己也能搭建comfyui工作流了!快速、流畅的图像生成能力,对低配置设备的友好性,以生成特定的人物、物品或画风,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • lMagi cClothing换装

  • AnimateDi ff文生动画

  • Anima teDi ff视频动画

  • 视频助手AI视频合成

  • LayerDi ffuse实现透明素材操作指南

  • Instantid换脸高级版

  • 重新打光IC-1ight

  • Yo1oWor1d智能识别抠图

第四阶段(20天):商业闭环

对氛围性场景,关键词技巧,图生图实操流程等方面有一定的认知,教你「精准控制」所有图片细节,可以在云端和本地等多种环境下部署Comfyui,找到适合自己的项目/创业方向,做一名被 AI 武装的社会主义接班人。

  • 真人视觉摄影工作流案例

  • 电商设觉设计工作流案例

  • 建筑设计工作流案例

  • 客户产品设计工作流案例

  • 室内设计工作流案例

  • 自媒体IP搭建

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名AI绘图大神的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

### Sapiens 模型架构详解 Sapiens模型展现出强大的泛化能力和可扩展性,当该模型参数数量从0.3亿增加至20亿时,其跨任务性能得到了提升[^1]。此特性表明Sapiens的设计不仅能够适应不同规模的数据集,而且能够在多种复杂度的任务间保持高效表现。 #### 基础结构特点 - **简单而有效的设计**:Sapiens采用了较为基础却高效的网络拓扑结构,使得即便是在有限或者完全由人工生成的数据环境下也能实现良好的训练效果并具备优秀的迁移学习潜力。 - **高度灵活性**:通过调整内部组件配置以及超参数设置,可以轻松应对来自计算机视觉领域内的多样化挑战,比如姿态估计、语义分割等具体应用场景中的精确度需求。 #### 关键技术创新点 - **增强的特征提取机制**:为了更好地捕捉输入图像中蕴含的信息,在卷积层之后引入了专门针对人体部位识别优化过的模块,从而提高了对于细节部分的理解力与表达能力。 - **多尺度融合策略**:利用金字塔式的下采样方法获取不同分辨率下的空间关系表示,并将其综合起来用于最终决策过程之中;这种方法有助于改善远距离物体检测精度的同时保留近景区域的关键属性描述。 ```python import torch.nn as nn class SapiensModel(nn.Module): def __init__(self, num_classes=1000): super(SapiensModel, self).__init__() # 定义基本卷积块和其他必要组件... def forward(self, x): pass # 实现前向传播逻辑 return output ``` 尽管上述代码仅为示意性质,实际应用中的`forward()`函数会更加复杂,涉及多个子网路间的交互操作来完成特定任务目标。 #### 性能评估指标 在几个重要的公开评测集合上取得了优异的成绩,例如: - 在Humans-5K(姿势估计)达到了7.6 mAP; - 对于Humans-2K(seg人体分割),获得了17.1 mIoU 的成绩; - Hi4D(深度估计)方面则有相对RMSE 22.4%的表现; - 而THuman2(表面法线预测)更是实现了相对于已有技术水平大幅改进达53.5% 的相对角度误差降低幅度。 这些成就证明了Sapiens框架及其背后设计理念的成功之处在于既兼顾到了理论上的先进性又不失实践价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值