计算机在图像和视频中识别和理解人类的能力对于包括自动驾驶、动作识别、人机交互、增强现实和机器人视觉在内的多项任务至关重要。人体姿态估计是计算机视觉中的基本问题。近年来,在二维人体姿态估计方面取得了重大进展。这一成功背后的关键因素是可用的大规模注释人体姿态数据集,允许训练网络的二维人体姿态估计。与此同时,在三维人体姿态估计方面的进展仍然有限,因为获得关于密集对应、深度、运动、身体部分分割、遮挡的地面真实信息是一项非常具有挑战性的任务。在本文中,我们列出了几个最近创建的数据集,试图解决用于三维人体姿态估计的带注释数据集的不足。
1、DensePose
DensePose是一个大规模的地面数据集,具有在50K COCO图像上手动注释的图像与表面的对应关系。为了构建此数据集,Facebook AI研究团队邀请了专门人员从2D图像到基于人体的表面表示的密集对应关系。
以下是来自验证集的图像注释的可视化效果: