Meta Sapiens 人体AI模型

最新推荐文章于 2025-02-05 15:23:04 发布

新缸中之脑

最新推荐文章于 2025-02-05 15:23:04 发布

阅读量1.1k

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/shebao3333/article/details/142611602

版权

Meta 一直是开发图像和视频模型的领导者，现在他们又增加了一个新东西：Meta Sapiens。和Homo sapiens一样，这个模型也是关于人类的。它旨在执行与人类相关的任务，例如理解身体姿势、识别身体部位、预测深度，甚至确定皮肤纹理等表面细节。

2023-2024 年，许多计算机视觉模型都专注于创建逼真的人类图像。虽然存在许多用于姿势估计和分割等任务的模型，但 Meta 的 Sapiens 模型是专门为与人类相关的任务而设计的。

本博客解释了 Meta 如何创建这个统一模型、优缺点以及它与其他模型的比较。

NSDT工具推荐： Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割

1、Meta Sapiens 的三大支柱

Meta 声称，用于与人类相关的任务的模型应该满足以下三个关键品质：

泛化：这意味着该模型在许多不同情况下都能很好地工作。例如，它可以处理不同的光照条件、相机角度，甚至各种类型的衣服。
广泛适用：该模型可以做很多事情。它可以估计姿势、识别身体部位，甚至预测某物与相机的距离，所有这些都不需要进行大的改变。
高保真度：它可以创建高质量、详细的结果。例如，如果任务是生成一个人的 3D 模型，结果将看起来非常逼真，具有清晰的细节，如面部特征和身体形状。

Meta Sapiens 使用一些强大的技术来实现这些任务。让我们简单地看一下其中的一些：

MAE（蒙版自动编码器）：将其视为一种使用拼图进行有效学习的方法。该模型查看缺少一些部分的图像（如缺少部分的拼图），并尝试填补空白。这使模型更好地理解图像并节省训练时间。例如，如果模型在图像中看到一个人手臂的一部分缺失，它可以通过理解图像的其余部分来猜测手臂应该是什么样子。
使用关键点和分割：该模型识别人体上的 308 个点，包括手、脚、脸和躯干。它还知道大约 28 个不同的身体部位，从头发到嘴唇再到四肢，非常详细。为了训练模型，Meta 使用了真实的人体扫描和合成数据，这有助于它非常详细地了解人类。

2、2D 姿势估计 - 了解人体运动

这项任务就像给模型一张图片，并要求它猜测关键身体部位在哪里。该模型会寻找眼睛、肘部、膝盖等的位置。例如，如果您上传某人跑步的照片，该模型可以准确识别他们的手臂、腿和头部在图像中的位置。

该过程通过创建“热图”来工作，这些热图显示了身体部位在特定位置的可能性。该模型经过训练，通过调整直到其猜测（热图）与身体部位的实际位置紧密匹配，以最大限度地减少错误。

架构：

输入：图像（I ∈ R^H×W×3，其中 H 为高度，W 为宽度）。
步骤 1：重新缩放图像 — 输入图像被调整为固定高度 H 和宽度 W。这样做是为了在所有图像中标准化输入大小。
步骤 2：姿势估计变换器 (P) — 变换器模型处理图像以预测关键点位置。这涉及：a）边界框输入：在图像中的人周围提供一个边界框。b）关键点热图：该模型生成 K 个热图，其中每个热图代表关键点位于某个位置的概率。例如，一个热图代表右肘，另一个代表左膝，依此类推。
步骤 3：损失函数（均方误差） — 这里使用的损失函数是均方误差 (MSE)。该模型将预测的热图 ŷ ∈ R^H×W×K 与地面真实关键点 y 进行比较，并使用 MSE 计算差异： L_pose = MSE(y, ŷ)
步骤 4：编码器-解码器架构 - 姿势估计模型使用编码器-解码器设置。编码器使用预训练的权重初始化，而解码器则随机初始化。然后对整个系统进行微调以完成关键点预测任务。
关键点差异：与之前的模型（可能只能检测 68 个面部点）相比，Meta 的 Sapiens 模型可以检测多达 243 个面部关键点，捕捉眼睛、嘴唇、鼻子、耳朵等周围的更精细的细节。