Meta Sapiens 人体AI模型

Meta 一直是开发图像和视频模型的领导者,现在他们又增加了一个新东西:Meta Sapiens。和Homo sapiens一样,这个模型也是关于人类的。它旨在执行与人类相关的任务,例如理解身体姿势、识别身体部位、预测深度,甚至确定皮肤纹理等表面细节。

2023-2024 年,许多计算机视觉模型都专注于创建逼真的人类图像。虽然存在许多用于姿势估计和分割等任务的模型,但 Meta 的 Sapiens 模型是专门为与人类相关的任务而设计的。

本博客解释了 Meta 如何创建这个统一模型、优缺点以及它与其他模型的比较。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 

1、Meta Sapiens 的三大支柱

Meta 声称,用于与人类相关的任务的模型应该满足以下三个关键品质:

  • 泛化:这意味着该模型在许多不同情况下都能很好地工作。例如,它可以处理不同的光照条件、相机角度,甚至各种类型的衣服。
  • 广泛适用:该模型可以做很多事情。它可以估计姿势、识别身体部位,甚至预测某物与相机的距离,所有这些都不需要进行大的改变。
  • 高保真度:它可以创建高质量、详细的结果。例如,如果任务是生成一个人的 3D 模型,结果将看起来非常逼真,具有清晰的细节,如面部特征和身体形状。

Meta Sapiens 使用一些强大的技术来实现这些任务。让我们简单地看一下其中的一些:

  • MAE(蒙版自动编码器):将其视为一种使用拼图进行有效学习的方法。该模型查看缺少一些部分的图像(如缺少部分的拼图),并尝试填补空白。这使模型更好地理解图像并节省训练时间。例如,如果模型在图像中看到一个人手臂的一部分缺失,它可以通过理解图像的其余部分来猜测手臂应该是什么样子。
  • 使用关键点和分割:该模型识别人体上的 308 个点,包括手、脚、脸和躯干。它还知道大约 28 个不同的身体部位,从头发到嘴唇再到四肢,非常详细。为了训练模型,Meta 使用了真实的人体扫描和合成数据,这有助于它非常详细地了解人类。

2、2D 姿势估计 - 了解人体运动

这项任务就像给模型一张图片,并要求它猜测关键身体部位在哪里。该模型会寻找眼睛、肘部、膝盖等的位置。例如,如果您上传某人跑步的照片,该模型可以准确识别他们的手臂、腿和头部在图像中的位置。

该过程通过创建“热图”来工作,这些热图显示了身体部位在特定位置的可能性。该模型经过训练,通过调整直到其猜测(热图)与身体部位的实际位置紧密匹配,以最大限度地减少错误。

架构:

  • 输入:图像(I ∈ R^H×W×3,其中 H 为高度,W 为宽度)。
  • 步骤 1:重新缩放图像 — 输入图像被调整为固定高度 H 和宽度 W。这样做是为了在所有图像中标准化输入大小。
  • 步骤 2:姿势估计变换器 (P) — 变换器模型处理图像以预测关键点位置。这涉及:a)边界框输入:在图像中的人周围提供一个边界框。b)关键点热图:该模型生成 K 个热图,其中每个热图代表关键点位于某个位置的概率。例如,一个热图代表右肘,另一个代表左膝,依此类推。
  • 步骤 3:损失函数(均方误差) — 这里使用的损失函数是均方误差 (MSE)。该模型将预测的热图  ŷ ∈ R^H×W×K 与地面真实关键点 y 进行比较,并使用 MSE 计算差异: L_pose = MSE(y, ŷ)
  • 步骤 4:编码器-解码器架构 - 姿势估计模型使用编码器-解码器设置。编码器使用预训练的权重初始化,而解码器则随机初始化。然后对整个系统进行微调以完成关键点预测任务。
  • 关键点差异:与之前的模型(可能只能检测 68 个面部点)相比,Meta 的 Sapiens 模型可以检测多达 243 个面部关键点,捕捉眼睛、嘴唇、鼻子、耳朵等周围的更精细的细节。

2.1 代码实现

下载姿势模型的检查点并按照后续步骤操作:

TASK = 'pose&
### Sapiens 模型架构详解 Sapiens模型展现出强大的泛化能力和可扩展性,当该模型参数数量从0.3亿增加至20亿时,其跨任务性能得到了提升[^1]。此特性表明Sapiens的设计不仅能够适应不同规模的数据集,而且能够在多种复杂度的任务间保持高效表现。 #### 基础结构特点 - **简单而有效的设计**:Sapiens采用了较为基础却高效的网络拓扑结构,使得即便是在有限或者完全由人工生成的数据环境下也能实现良好的训练效果并具备优秀的迁移学习潜力。 - **高度灵活性**:通过调整内部组件配置以及超参数设置,可以轻松应对来自计算机视觉领域内的多样化挑战,比如姿态估计、语义分割等具体应用场景中的精确度需求。 #### 关键技术创新点 - **增强的特征提取机制**:为了更好地捕捉输入图像中蕴含的信息,在卷积层之后引入了专门针对人体部位识别优化过的模块,从而提高了对于细节部分的理解力与表达能力。 - **多尺度融合策略**:利用金字塔式的下采样方法获取不同分辨率下的空间关系表示,并将其综合起来用于最终决策过程之中;这种方法有助于改善远距离物体检测精度的同时保留近景区域的关键属性描述。 ```python import torch.nn as nn class SapiensModel(nn.Module): def __init__(self, num_classes=1000): super(SapiensModel, self).__init__() # 定义基本卷积块和其他必要组件... def forward(self, x): pass # 实现前向传播逻辑 return output ``` 尽管上述代码仅为示意性质,实际应用中的`forward()`函数会更加复杂,涉及多个子网路间的交互操作来完成特定任务目标。 #### 性能评估指标 在几个重要的公开评测集合上取得了优异的成绩,例如: - 在Humans-5K(姿势估计)达到了7.6 mAP; - 对于Humans-2K(seg人体分割),获得了17.1 mIoU 的成绩; - Hi4D(深度估计)方面则有相对RMSE 22.4%的表现; - 而THuman2(表面法线预测)更是实现了相对于已有技术水平大幅改进达53.5% 的相对角度误差降低幅度。 这些成就证明了Sapiens框架及其背后设计理念的成功之处在于既兼顾到了理论上的先进性又不失实践价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值