项目地址:github.com
概述
Sapiens 是由 Rawal Khirodkar 等人开发的一系列模型,旨在处理四个关键的以人为中心的视觉任务:2D 姿态估计、身体部位分割、深度预测和表面法线预测。这些任务对于理解图像中的人体和生成逼真的3D 人类模型至关重要。Sapiens 模型通过在大规模的野外人类图像数据集上进行自监督预训练,然后针对特定任务进行微调,以实现高性能。

模型特点
- 高分辨率支持:Sapiens 原生支持高达 1K 分辨率的图像,使其能够处理高保真任务。
- 易于适应:通过简单的微调,可以轻松适应不同的任务。
- 大规模预训练:在超过 3 亿张野外人类图像上进行