Hand Key point Detection in Single Images using Multiview Bootstrapping

最新推荐文章于 2023-06-15 14:53:27 发布

铿锵的玫瑰

最新推荐文章于 2023-06-15 14:53:27 发布

阅读量1.2k

点赞数 1

分类专栏：论文大全

本文链接：https://blog.csdn.net/LYKymy/article/details/95196495

版权

论文大全专栏收录该内容

162 篇文章 9 订阅

订阅专栏

Abstract

我们提出了一种使用多摄像系统来训练易被遮挡的关键点（如手的关节）的细粒度探测器的方法。
我们称这个过程为多视图引导：首先，一个初始的关键点检测器被用来在手的多个视图中产生噪声标签。然后使用多视图几何体在3D中对噪声检测进行三角测量或标记为离群值。最后，将重投影三角测量作为新的标记训练数据来改进检测器。
我们重复这个过程，在每次迭代中生成更多的标记数据。我们通过分析得出了一个结果，该结果与实现给定检测器目标真、假阳性率的最小视图数有关。
该方法用于训练单图像手关键点检测仪。生成的关键点探测器实时运行在RGB图像上，其精度与使用深度传感器的方法相当。单视图探测器，在多个视图上进行三角测量，可以在复杂的对象交互中实现三维无标记手运动捕捉。

Introduction

一种可以在RGB图像中定位手关节（无需深度）的方法，可以在现有最大的视觉数据源（如YouTube和Net-Flix）上对人体运动进行新的分析，以及在HCI和机器人技术中的新应用。我们提出了一种在单视图视频和三维手势捕捉中实现实时二维手势跟踪的方法，如图1所示:
与面部和身体不同，手部不存在标注关键点的大数据集。与面部或身体相比，生成这样的数据集是一个重大挑战。由于闭塞严重，即使是手动关键点注释也难以正确理解：对于闭塞的关键点，带注释的位置充其量只是一个有根据的猜测。
在每种情况下，注释器都必须估计几个关键点，从而增加注释时间和成本，同时降低精度。
在本文中，我们提出了一种使用多摄像机装置提高给定关键点探测器性能的方法。这种方法，我们称之为多视图引导，是基于以下观察：即使手的特定图像有明显的遮挡，也不存在遮挡视图。
多视图引导系统化了这一见解，以产生一个功能更强大的手探测器，我们演示了捕获设置以外的通用性。
特别是，它允许一个弱检测器，在一个小的带注释的数据集上训练，定位关键点的子集合，并使用强大的三维三角测量来过滤错误的检测。对于存在严重闭塞的图像，通过重新投射三角形的三维手关节来标记。通过在训练集中包含这些新生成的注释，我们迭代地改进检测器，在每次迭代中获得越来越精确的检测。
该方法使用多视图约束作为外部监督源，生成几何上一致的手关键点注释。通过这种方式，我们可以标记由于遮挡而难以识别或无法注释的图像。
我们进一步证明，在多镜头设置中应用这种单视探测器，可以在前所未有的场景中进行无标记的三维手部重建，包括对物体的挑战性操作、音乐表演和多个相互作用的人。

Related Work

早期的手部姿势估计工作最初考虑了RGB数据，Rehg和Kanade[15]探索了基于视觉的人机交互（HCI）应用程序。大多数方法都是脆弱的，基于具有很强先验的复杂3D模型，包括物理或动力学[10]、多重假设[21]或综合分析[5]。在有限制的姿势和简单的动作的受控环境中演示了诸如轮廓、边缘、肤色和阴影等提示。
多视图RGB方法通常同样基于复杂的网格模型，在高度受控的条件下显示出出色的精度。
随着商用深度传感器的引入，基于单视图深度的手姿态估计成为研究的重点，产生了大量的基于深度的方法。这些方法大致可分为生成方法、识别方法或混合方法。最近，夏普等人的混合方法在很大范围内展示了实际性能，但仍有较为困难处理的情况，如手-手交互和手-物交互。
基于深度的手部姿势估计的识别和混合方法严重依赖于合成数据。Oberwerger等人[13]使用反馈回路生成手部姿势估计的合成训练数据，其动机与我们的工作原理相同，但重点是生成深度图像。
[12]中提出的半自动数据注释方案在动机上也类似，但是，我们的方法使用多视图几何和关键点检测来提供自动监控。
识别方法，尤其是依赖于深层架构的方法，需要大的带注释的训练集。这些数据集相对容易为深度映射合成，但目前的显着挑战为RGB渲染更为复杂，需要照片逼真的外观和照明。
多视图引导是一种允许使用弱初始检测器生成大注释数据集的方法。这反过来又使我们能够为“野外”的RGB图像创建第一个实时手关键点探测器。

Multiview Bootstrapped Training

Detection Architecture

对于检测器DI，我们遵循卷积式姿势机（CPMS）的体系结构，并进行了一些修改。CPMS预测每个关键点的置信度图，将关键点的位置表示为以真实位置为中心的高斯。预测的置信度图对应于输入图像补丁的大小，通过确定每个置信度图中的最大峰值来获得每个关键点的最终位置。

When does Multiview Bootstrapping Work

Discussion

本文提出了两个创新：（1）第一个实时手关键点检测仪在野生RGB视频中显示出实际的适用性；（2）第一个无标记的三维手运动捕捉系统，能够在无需手动操作的情况下重建具有挑战性的手-物交互和音乐表演。
我们发现可以使用多视图引导构建丰富的训练集，从而提高注释的质量和数量。我们的方法可用于为任何容易发生闭塞（如身体和面部）的关键点探测器生成注释。
构建一个大的注释数据集通常是许多机器学习和计算机视觉问题的主要瓶颈，我们的方法是通过使用多视图几何作为外部监督源来重新定义弱监督学习的一种方法。随着未来的工作，使该方法足够强大，能够在更少的摄像头和更少的受控环境（例如，多部手机）中工作，这将允许创建更丰富的数据集，以便更紧密地反映真实世界的捕获条件。

铿锵的玫瑰

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Hand Key point Detection in Single Images using Multiview Bootstrapping

Abstract我们提出了一种使用多摄像系统来训练易被遮挡的关键点（如手的关节）的细粒度探测器的方法。我们称这个过程为多视图引导：首先，一个初始的关键点检测器被用来在手的多个视图中产生噪声标签。然后使用多视图几何体在3D中对噪声检测进行三角测量或标记为离群值。最后，将重投影三角测量作为新的标记训练数据来改进检测器。我们重复这个过程，在每次迭代中生成更多的标记数据。我们通过分析得出了一个...
复制链接

扫一扫