EventCap: Monocular 3D Capture of High-Speed Human Motionsusing an Event Camera论文笔记

论文翻译

Abstract

高帧率是捕捉快速人体运动的关键要求。在这种情况下,现有的基于无标记图像的方法受到照明要求、高数据带宽和随之而来的高计算开销的限制。在这篇文章中,我们提出了event cap——第一个使用单个事件摄像机对高速人体运动进行三维捕捉的方法。我们的方法结合了基于模型的优化和基于CNN的人体姿态检测来捕捉高频运动细节并减少跟踪中的漂移。因此,与使用高帧率视频相比,我们可以以毫秒级分辨率捕获快速运动,数据效率显著提高。在我们新的基于事件的快速人体运动数据集上的实验证明了我们方法的有效性和准确性,以及它对严苛光照条件的鲁棒性。

1. Introduction

随着虚拟现实和增强现实(VR和AR)最近的流行,对可靠的3D人体运动捕捉的需求越来越大。作为广泛使用的基于标记和传感器的解决方案的低成本替代方案,基于无标记视频的运动捕捉减轻了对身体佩戴运动传感器和标记的需求。这一研究方向在过去几年里受到了越来越多的关注[13,21,54,64,68]。

在本文中,我们将重点放在高速运动的无标记动作捕捉上,这对于许多应用是必不可少的,例如体操、体育和舞蹈的训练和表现评估。对于现有方法,以高帧速率捕获运动会导致非常高的数据带宽以及算法复杂性。虽然当前基于marker和sensor-based的解决方案可以支持超过每秒400帧(fps) [63,66,44],但关于无标记高帧率运动捕捉的文献很少。

最近的几个工作[30,71]揭示了高帧速率摄像机系统对于跟踪快速运动的重要性。然而,它们仍然存在上述基本问题——高帧率会导致原始数据量过大,数据处理需要大量带宽(例如,从单个视图中以1000 fps的速度捕获VGA分辨率的RGB流,一分钟会产生51.5GB的数据)。此外,两种方法[30,71]都假设:1) 光线充足的场景,用于补偿高帧速率下的短曝光时间。2) 由于基于红外的深度传感器的限制,只能在室内进行捕捉。

在这篇文章中,我们提出了一种通过使用事件摄像机来解决上述问题的方法。这种受生物启发的动态视觉传感器[32]异步测量像素强度变化,与传统相机相比具有多种优势,包括高时间分辨率、高动态范围(140分贝)、低功耗和低数据带宽。这些属性允许以high data efficiency并且可以在一般的在照明条件下捕获非常快的运动。然而,使用事件摄像机进行动作捕捉仍然具有挑战性。首先,算法的高时间分辨率导致每个帧间隔中的测量(事件)非常稀疏,因为帧间强度变化是微小的。由此产生的低信噪比使得很难鲁棒地跟踪运动。第二,由于事件流仅编码时间强度变化,因此难以初始化跟踪和防止漂移。一种简单的解决方案是通过累积事件以高帧速率重建图像,并将现有方法应用于重建图像。这样的方法会使数据再次变得密集,并且事件中编码的时间信息会丢失。

为了应对这些挑战,我们提出了EventCap——第一个基于单目事件的三维人体运动捕捉方法(见图1的概述)。更具体地说,我们设计了一种混合异步运动捕捉算法,该算法在联合优化框架中利用来自事件摄像机的事件流和低帧率强度图像流。我们的方法包括三个阶段:首先,我们以异步方式跟踪2D空间中的事件,并重建每个相邻强度图像之间的连续时空事件轨迹。通过均匀分割连续事件轨迹,我们以期望的高帧速率实现了2D事件跟踪。其次,我们使用基于batch的优化算法来估计演员的3D运动。为了解决由于单目设置固有的跟踪误差和深度模糊的累积而导致的漂移,我们基于 batch处理的优化不仅支持跟踪事件的轨迹,但也支持基于CNN的强度图像的2D和3D姿态估计。最后,我们基于从异步事件流中获得的边界信息来细化捕获的高速运动。总之,本文的主要贡献包括:

1)我们提出了第一种基于事件摄像机的三维人体运动捕捉的单目方法。

2)为了应对低信噪比、漂移和初始化困难的挑战,我们提出了一种新的混合异步batch-based处理优化算法。

3)我们提出了基于事件摄像机的快速人体运动捕捉评估数据集,并以1000 fps的速度提供高质量的运动捕捉结果。

2. Related Work 

3D人体运动捕捉

Marker-based的多视图运动捕捉工作室在工业界和学术界都被广泛使用[66,63,44],它可以以高帧速率(例如960 fps)捕捉快速运动[44]。这些系统通常成本很高,而且用户佩戴标记物套件会很麻烦。无标记多摄像机运动捕捉算法克服了这些问题[5,58,37,22,16,51,52,54,25,67]。最近的工作[2,6,14,47,48,42,53]甚至证明了强大的离线运动捕捉。尽管成本大幅降低,同步和校准多摄像机系统仍然很麻烦。此外,当以高帧速率捕获快速运动时[30],来自多个摄像机的大量数据不仅成为计算的瓶颈,也成为数据处理和存储的瓶颈 。

商用深度相机的出现使得低成本的动作捕捉无需复杂的多视角设置[50,3,65,70,19]。为了捕捉快速运动,Yuan等人[71]将高帧率动作相机与商品30fps的RGB-D相机相结合,产生了240fps的合成深度相机。然而,基于红外的相机不适合户外拍摄,其高功耗限制了移动应用。

最近,随着深度神经网络的出现,提出了纯粹基于RGB的单目三维人体姿态估计方法[23,49,11,61,29]。这些方法或者从单个图像回归身体关节的相对于root-relative的三维位置[31,56,72,34,57,41,35],或者将2D检测提升到三维[4,73,10,69,24]。这些工作中使用的三维位置表示不适合制作三维虚拟角色的动画。为了解决这个问题,最近的工作直接从图像中回归关节角度[26,28,39,43,55]。理论上,这些方法可以直接应用于高帧率视频,实现快速运动捕捉。实际上,跟踪误差通常大于帧间运动,这导致精细运动细节的丢失。结合数据驱动的三维位姿估计和图像引导配准的方法缓解了这一问题,可以获得更高的精度[68,20]。然而,数据冗余仍然是一个问题。

此外,当捕捉高帧率RGB视频时,场景必须光线充足,因为曝光时间不能长于帧间隔。继[68]之后,我们将数据驱动方法与批量优化相结合。不同的是,我们不是使用高帧率RGB视频,而是利用事件流和来自事件摄像机的低帧率强度图像流。与基于RGB的方法相比,我们的方法更具数据效率,并且在更广泛的照明条件下工作良好。

使用事件摄像机进行跟踪。

由于其高动态范围、无运动模糊和低功耗,事件摄像机正在引起计算机视觉的范式转变。有关基于事件的视觉应用的详细调查,请参考[17]。与我们最密切相关的设置可以在事件流中的对象跟踪工作中找到。

 事件摄像机的特定特性使其非常适合跟踪快速移动的对象。大多数相关的工作集中在跟踪2D物体上,如已知的2D单元[38,36],角[62]和线[15]。Piatkowska等人[45]提出了一种从立体事件摄像机跟踪多人bounding box的技术。Valeiras等人[60]用一组与simulated springs相连的高斯追踪器追踪像人脸这样的复杂物体。

第一种三维跟踪方法是在[46]中提出的,它估计刚性物体的三维姿态估计。从已知姿势的已知对象形状开始,他们的方法通过将事件与最近的可见对象边缘相关联来增量更新姿势。最近,Calabrese等人[7]提供了第一种基于多事件摄像机的基于事件的3D人体运动捕捉方法。训练神经网络以使用来自每个视图的事件流来检测2D人体关节。然后,通过三角测量来估计三维身体姿态。在他们的方法中,事件随着时间的推移而累积,形成图像帧作为网络的输入。因此,事件相机的异步和高时间分辨率特性被破坏,这阻止了该方法用于高帧速率运动捕捉。

3. EventCap Method

我们在这篇文章中的目标是使用单事件摄像机捕捉3D中的高速人体运动。为了捕捉快速运动中的精细细节,高时间分辨率是必要的。这里,我们的目标是1000 fps的跟踪帧速率。

图2提供了EventCap的概述。我们的方法依赖于预处理步骤来重建演员的模板网格。在跟踪过程中,我们优化模板的骨架参数,以匹配单个事件摄像机的观察,包括事件流和低帧率强度图像流。我们的跟踪算法由三个阶段组成:首先,我们在两个相邻的强度图像之间生成稀疏的事件轨迹,这些轨迹从事件流中提取异步时空信息。然后,执行批量优化方案,以使用事件轨迹和来自强度图像流(秒)的基于中枢神经系统的身体关节检测来优化1000fps的骨骼运动。最后,我们基于从异步事件流(Sec)获得的边界信息来细化捕获的骨骼运动。

模板网格获取。

我们使用3D身体扫描仪[59]来生成演员的模板网格。为了用参数化骨架装配模板网格,我们通过优化身体形状和姿势参数,将蒙皮多人线性模型(SMPL)[33]拟合到模板网格,然后将SMPL权重转移到我们的扫描网格。如果3D扫描仪不可用,还可以使用基于图像的人体形状估计算法,例如[26],来获得SMPL网格作为模板网格。这两种方法的比较见第2节.4.1。为了达到类似身体关节约束,我们降低了SMPL骨骼的自由度。我们的骨架参数集S = [θ,R,t]包括NJ骨架的关节角θ ∈ R27,root的全局旋转R∈R3和平移t∈R3。

事件摄像机模型。

事件相机是受生物启发的传感器,可以在每个像素独立测量对数亮度L(u,t)的变化,并提供微秒级分辨率的异步事件流。当对数亮度变化达到阈值时,事件ei= (ui,ti,ρi)表示像素ui在t时间ti被触发。


3.1 异步事件的轨迹生成

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Triangulation Learning Network (TLN) 是一个用于从单目图像到立体图像的三维物体检测的算法,其存在一些主要问题,包括: 1. 训练数据缺乏:TLN 算法需要大量的训练数据才能准确地预测三维物体的位置和姿态。但是,由于三维物体检测数据集的获取成本很高,因此当前可用的数据集相对较少,这可能会影响算法的性能。 2. 姿态估计不准确:TLN 算法依赖于对相机姿态的准确估计,但是在实际应用中,姿态估计可能会出现误差。这些误差可能会导致算法无法准确地确定物体的三维位置和姿态。 3. 光照和背景干扰:TLN 算法对光照和背景的变化敏感,这可能会对其检测性能产生负面影响。在不同光照条件和背景下进行测试时,算法可能会出现误报或漏报。 4. 计算复杂度高:TLN 算法需要进行复杂的三角测量和卷积计算,因此需要较高的计算资源。这可能会限制算法在实时应用中的使用。 总之,尽管TLN 算法在三维物体检测方面取得了一些进展,但是它仍然面临着一些挑战和限制,需要进一步研究和改进。 ### 回答2: Triangulation Learning Network (TLN) is a type of deep learning model used for monocular to stereo 3D object detection. However, there are several main problems that currently exist with this approach. 首先,monocular-based 3D object detection methods, including TLN, heavily rely on depth estimation from a single image. This poses a challenge because estimating accurate depth information from a monocular image is inherently difficult. Monocular depth estimation is an ill-posed problem, as there are multiple possible depth solutions for a single input image. Therefore, the quality of depth estimation directly affects the accuracy of 3D object detection, and the current performance of monocular-based methods is still limited due to inaccurate depth estimation. 其次,TLN relies on stereo vision to improve the accuracy of 3D object detection. However, stereo vision has its limitations as well. It requires the presence of two or more cameras with known spatial calibration, which can be expensive and cumbersome to implement in real-world scenarios. Moreover, in challenging environments with poor lighting conditions or occlusions, the accuracy of stereo vision-based methods can be significantly affected. 此外,TLN suffers from the problem of ambiguous depth inference. Even with accurate depth estimation, it is still challenging to determine the exact 3D position of an object. This is because an object can have multiple possible 3D positions that are consistent with the observed 2D image. It becomes even more complex when multiple objects overlap or occlude each other, leading to further ambiguities in 3D object detection results. 最后,TLN requires a large amount of training data to achieve satisfactory performance. Collecting and annotating such data, especially for stereo 3D object detection, can be time-consuming, costly, and error-prone. This limits the scalability and practicality of TLN, as acquiring a diverse and representative dataset for training can be challenging. In summary, the main problems currently existing with Triangulation Learning Network (TLN) for monocular to stereo 3D object detection are inaccurate depth estimation, limitations of stereo vision, ambiguous depth inference, and the requirement for a large amount of training data. Addressing these challenges is essential for improving the accuracy, robustness, and practicality of TLN-based 3D object detection methods. ### 回答3: 目前Triangulation Learning Network: from Monocular to Stereo 3D Object Detection存在以下主要问题: 1. 数据需求高:从单目到立体的3D物体检测需要更多的数据支持。单目图像中的物体深度信息是模糊的,缺乏对立体视觉中物体准确深度的直接观测。因此,为了训练Triangulation Learning Network,需要大量的立体图像数据集,这样的数据集很难获得且成本较高。 2. 精度限制:尽管Triangulation Learning Network提供了改善单目到立体3D物体检测的方法,但其精度仍然受到一些限制。由于立体视觉中的散射和遮挡问题,物体表面的纹理信息可能会受到影响并导致深度估计的误差。此外,图像中物体的姿态和形状也会对准确的深度估计产生影响。 3. 依赖立体匹配:Triangulation Learning Network的核心思想是通过使用立体图像中的匹配点将单目图像的深度信息转换为立体深度。然而,立体匹配本身是一个复杂和计算密集的任务,尤其在具有高度纹理变化或遮挡的场景中,可能存在匹配错误的情况。 4. 硬件要求高:Triangulation Learning Network需要用于获取立体图像的专门的硬件设备,如立体相机或深度相机。这些硬件设备的成本较高,因此部署这种方法可能会面临一定的技术和经济挑战。 综上所述,尽管Triangulation Learning Network提供了一种从单目到立体的3D物体检测方法,但仍然存在着数据需求高、精度限制、依赖立体匹配和硬件要求高等问题。随着技术的进步,相信这些问题将逐渐得到解决,从而更好地推动Triangulation Learning Network的发展和应用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值