文献阅读: 3D human pose estimation in video with temporal convolutions and semi-supervised training

Hey,这篇论文“3D human pose estimation in video with temporal convolutions and semi-supervised training”我觉得特别有意思,之前还用它改进了一下,申请了一个软著,今天拿来回顾一下。首先还是翻译一下:

论文名称:基于时间卷积和半监督训练的视频三维人体姿态估计

摘要:在这项工作中,我们证明了基于二维关键点上的扩展时间卷积的全卷积模型可以有效地估计视频中的三维姿态。我们还介绍了反投影,一种利用未标记视频数据的简单有效的半监督训练方法。我们从预测未标记视频的二维关键点开始,然后估计三维姿势,最后投影到输入的二维关键点。输入在监督设置下,我们的全卷积模型输出器形成了先前文献中的最佳结果,在human3.6m上,每个关节位置误差的平均值为6毫米,与11%的误差降低相对应,该模型对HumanEva-I也有显著的改进。此外,反投影实验表明,在标记数据稀少的半监督环境中,该模型的舒适性明显优于先前的最新结果。代码和模型可在https://github.com/ facebookresearch/VideoPose3D获取。

 

1、引言

我们的工作重点是在视频。我们建立在最新方法的基础上,该方法将问题模拟为二维关键点检测,然后是三维姿态估计[41、52、34、50、10、40、56、33]。尽管解决这个问题可以说降低了任务的难度,但由于多个3D姿态映射到同一个2D关键点,它本身就很模糊。先前的工作通过用递归神经网络建模时间信息来解决这种模糊性[16,27]。另一方面,卷积神经网络在传统RNNs处理的任务(如神经机器翻译[11]、语言建模[7]、语音生成[55]和语音识别[6])中对时间信息的建模非常成功。卷积模型能够并行处理多个帧,这在循环网络中是不可能的。

在本文中,我们提出了一个全卷积架构,它在二维关键点上执行时间卷积,以便在视频中进行精确的三维姿势预测(见图1)。我们的方法与任何二维关键点检测器都兼容,并且可以通过扩展的卷积有效地处理大的上下文。与依赖于RNNs的方法相比[16,27],它在计算复杂度和参数数量方面都提供了更高的精度、简单性和效率(§3)

由于采用了高精度、高效率的体系结构,我们转向了标记训练数据较少的环境,提出了一种利用未标记视频数据进行半监督训练的新方案。低资源设置对神经网络模型来说尤其具有挑战性,因为神经网络模型需要大量有标签的训练数据和收集标签以进行三维人体姿势估计,这就需要一个非常复杂的运动捕捉设置和冗长的记录过程。我们的方法受到了无监督机器翻译中循环一致性的启发,在这种情况下,往返翻译成中间语言并返回到原始语言应该接近于身份函数[46,26,9],然后把它们映射回二维空间(§4)

总之,本文提供了两个主要的贡献。首先提出了一种基于二维关键点轨迹展开的三维人体姿态估计方法。在计算复杂度和模型个数方面,我们的模型比基于RNN的模型在精度上更有效参数。

其次,我们引入了一种半监督方法,该方法可以搜索未标记的视频,当标签数据是比较稀少对于以前的半监督方法,我们只需要相机的内部参数,而不是Ground truth的二维注释,或者使用外部相机的多视图图像参数。

与最新技术相比,我们的方法在监督和半监督环境下执行了以前最好的执行方法。我们的监督模型比其他模型性能更好,即使这些额外标记的数据用于训练。

2、相关工作

在深度学习成功之前,大多数三维姿态估计方法都是基于特征工程和骨骼和关节活动性的假设[48,42,20,18]。第一种使用卷积神经网络(CNN)的神经方法关注端到端重建[28,53,51,41],通过直接从rgb图像估计3D姿势而无需中间监督

两步位姿估计。一个新的三维位姿估计器家族建立在二维位姿估计器的基础上,首先在图像空间(关键点)中预测二维关节位置,然后提升到三维[21,34,41,52,4,16]。这些方法优于端到端同行,因为它们受益于中间监督。我们遵循这种方法。最近的研究表明,在给定地面真值的情况下,预测三维位置相对简单,困难在于预测准确的二维位置[34]。早期的方法[21,4]只需对预测的一组2D关键点执行k近邻搜索,然后简单地输出相应的3D姿势。一些方法同时利用图像特征和二维地面真实姿势[39,41,52]。或者,可以通过预测给定的2D关键点集的深度来预测3d姿势[58]。一些工作加强了有关骨骼长度和投影与二维ground truth一致性的优先级[2]。

视频姿势估计。大多数以前的工作是在单帧设置下进行的,但最近在利用视频中的时间信息以产生更稳健的预测和对噪声不太敏感方面做了很多工作。[53]从时空体的HoG特征(定向梯度直方图)推断3D姿势。LSTMs已经被用于优化从单帧图像预测的3D姿势[30,24]。然而,最成功的方法是从二维关键点轨迹中学习。我们的工作属于这一类.

最近,LSTM序列到序列学习模型被提出,它将视频中的2D位置序列编码成固定大小的向量,然后解码成3D姿势序列[16]。然而,输入和输出序列具有相同的长度,并且确定二维姿势的变换是更自然的选择。我们用q2seq模型进行的实验表明,输出姿态往往会在长序列上漂移。[16] 通过每5帧重新初始化编码器来解决这个问题,代价是时间一致性。也有关于RNN方法的工作,其中考虑了正面身体部位的连接性[27]。

半监督训练。那里已经在多任务网络[3]上研究了二维和三维联合姿态估计[36,33]以及动作识别[33]。一些工作将学习到的用于二维姿势估计的特征转移到三维任务中[35]。未标记的多视图记录已用于三维姿势估计的训练前表示[45],但这些记录在无监督设置中不易获得。生成性对抗网络(GAN)可以在只有2D注释可用的第二个数据集中区分真实姿势和不真实姿势[56],从而提供一种有用的正则化形式。[54]使用GANs从未配对的2D/3D数据集学习,并包含2D投影一致性项。类似地,[8]在将生成的3D姿势随机投影到2D之后对其进行判别。[40]提出了一种基于顺序深度标注的弱监督方法,该方法利用了通过深度比较增强的2Dpose数据集,例如“左腿在右腿后面”。

三维形状恢复。同时本文和所讨论的相关工作集中在重建精确的三维姿势上,一系列的研究旨在从图像中恢复人的完整三维形状[1,23]。这些方法通常基于参数化三维网格,对姿态精度的影响较小。

我们的工作。比较对于[41,40],我们不使用热图,而是使用检测到的关键点坐标描述姿势。这允许使用有效的一维卷积过协调时间序列,而不是单独热图中的二维卷积(或热图序列上的三维卷积)。我们的方法也使得计算复杂度独立于关键点空间分辨率。我们的模型能够以较少的参数达到较高的精度,并允许更快的训练和推理。与文献[34]提出的单帧基线和文献[16]提出的lstmodel相比,我们通过在时间维上进行一维卷积来利用时间信息,并提出了几种优化方法,从而降低了重构误差。不像[16],我们学习确定性映射,而不是aseq2seqmodel。最后,与本节中提到的大多数两步模型(使用普通的沙漏网络[38]进行二维关键点检测)相反,我们表明掩模R-CNN[12]和级联pyramid网络(CPN)[5]检测对于三维人体姿态估计更为稳健。

3、时间扩张卷积模型

我们的模型是一个完全卷积的结构,带有剩余的连接,将一系列的二维姿势输入并通过时间变换卷积模型支持批处理和时间维度上的并行化,而RNN不能随时间并行化。在卷积模型中,输出和输入之间的梯度路径具有固定的长度,而不考虑序列长度,从而减少了影响rnn的消失和扩展梯度。卷积结构还提供了对时间感知场的精确控制,我们发现这有助于为三维姿态估计任务建模时间依赖性。此外,我们使用扩展卷积[15]来建模长期依赖,同时保持效率。架构在音频生成、语义分割和机器翻译方面,扩展卷积是成功的。

输入层为每帧采用连接的(x,y)jjoints坐标,并应用带有内核大小和coutput的速度卷积频道。这个后面是bresnet样式的块,这些块由跳过连接环绕[13]。每个块首先与核大小形成1D卷积,然后与核大小1形成卷积。卷积(除了最后一层)是由批处理规范化[17]、校正线性单元[37]和舍弃[49]来跟踪的。每一个块都会使感受野expo指数增加一个因子ofW,而参数的数量只会线性增加。过滤器超参数WandD的设置使得任何输出帧的接收字段形成覆盖所有输入帧的树(参见第1节)。最后,最后一层使用过去和未来的数据输出输入序列中所有帧的3D姿势的预测,以表示时间信息。为了评估实时场景,我们还实验了因果卷积,即只能访问过去帧的卷积。附录A.1详述了扩张卷积和因果卷积。

卷积图像模型通常采用零填充来获得与输入一样多的输出。然而,早期的实验显示,在执行仅填充卷积时,在输入序列中填充左右边界帧的副本时,效果更好(参见附录A.5图9a中的说明)。图2显示了我们的体系结构的一个实例,其感知字段大小为243个frameswithB=4个块。对于卷积层,我们设置w=3,c=1024个输出通道,并使用一个丢失率p=0.25。

4、半监督方法

本文介绍了一种半监督训练方法,以提高在标签三维地面真位姿数据有限的情况下的训练精度。我们利用一个现成的2D关键点检测器和一个unla beledvideo来扩展带有反投影损失项的监督损失函数。我们解决了一个未标记数据的自动编码问题:编码器(姿态估计器)从二维关节坐标进行三维姿态估计,解码器(投影层)将三维姿态投影回二维关节坐标。当来自解码器的2D连接坐标远离原始输入时,训练将受到惩罚。

图3展示了我们的方法,它将我们的受监督组件与充当正则化器的无监督组件结合起来。这两个目标是联合优化的,标记的数据占一批的前半部分,而未标记的数据占第二部分。对于标记的数据,我们使用地面真值3D 姿态目标并训练一个监督损失。未标记的数据用于实现自动编码器丢失,其中预测的3D姿势被投影回2D,然后检查与输入的一致性。

轨迹模型.到期对于透视投影,屏幕上的二维姿势取决于轨迹(即人体根关节的全局位置)和3D姿势(所有关节相对于根关节的位置),没有全局位置,物体总是以固定的比例重新投影到屏幕的中心。在此基础上,还对人体的三维轨迹进行了回归,使其能够正确地反投影到二维。最后,我们优化了第二个网络,使摄像机空间的全局轨迹回归。后者在投影回2D之前被添加到场景中。这两个网络具有相同的架构,但不共享任何权重,因为我们发现,当以多任务方式训练时,它们会对彼此产生负面影响。随着越来越难回归精确的轨迹(如果被摄体离相机更远),我们优化轨迹的加权平均每关节位置误差(WMPJPE)损失函数:

也就是说,我们使用相机空间中的地面真值深度(yz)的反比对每个样本进行加权。对于我们的目的来说,回归一个远目标的精确轨迹也是不必要的,因为相应的二维关键点往往集中在一个小的骨面积长度L2损失。我们希望激励那些看似合理的3D姿势的预测,而不是仅仅复制输入。为此,我们发现添加一个软约束以近似匹配未标记批次中子对象的平均骨长度与labeledbatch的对象(图3中的“骨长度L2丢失”)是有效的。这个词在自我监督中扮演着重要的角色。

讨论。我们的方法只需要相机的内在参数,这通常是可以获得的。1该方法不依赖于任何特定的网络结构,可应用于任何以2D关键点为输入的3D姿态检测器。在我们的实验中,我们使用第3节中描述的架构将二维姿势映射到三维。将三维姿势投影到二维时,我们使用一个简单的投影层,该投影层考虑了线性参数(焦距、主点)以及非线性镜头畸变系数(三角形和径向)。我们发现3.6米人眼使用的摄像机镜头畸变对上述估计指标的影响可以忽略不计,但我们将这些术语也包括在内,因为它们总是为真实的摄像机投影提供更精确的模型。

结论

我们介绍了一种简单的全卷积模型,用于视频中的三维人体姿态估计。我们的架构利用二维关键点轨迹上的扩展卷积来扩展时间信息。这项工作的第二个贡献是反投影(back projection),这是一种半监督的训练方法,用于在标记数据稀少的情况下提高性能。该方法适用于无标签视频,只需要三元摄像机参数,因此在运动捕捉具有挑战性的场景(如户外运动)中是实用的。

我们的完全卷积结构在Human3.6M数据集上平均提升了6mm的关节误差(对应于相对减少的误差)改善了先前的最佳结果其中11%也显示了HumanEva-I的改进。当有5K或更少的带注释帧可用时,反投影可以通过10mm N-MPJPE(15mm MPJPE)比强基线提高3D姿势估计精度。

我没有把实验部分放出来,因为我的研究重点不在半监督训练上。这篇论文提出的网络架构还是很有启发性的。之前用了很多的精力去学习这篇论文。但是能力有限,很多地方还是没有完全搞清楚。可能这就是科研的常态吧。毕竟是Facebook学术大佬们的科研成果。

最近在用远程服务器做实验,环境都是配置好了的,几乎不用担心环境的问题,直接就可以跑实验,有同样需求的朋友可以参考:智星云官网: http://www.ai-galaxy.cn/,淘宝店:https://shop36573300.taobao.com/公众号: 智星AI,

下一次给大家详细介绍一下标注文件转换的问题,但愿到那时我已经搞定了标注数据的问题,今天下午得知北京西城又出现了一例新冠肺炎的确诊病例,唉,也许,这次疫情就是对我们全人类的一种考验,一面镜子,一次挑战,让我们意识到生命的宝贵和岁月静好的不易,希望疫情早日结束PEACE

 

 

 

参考文献:

https://arxiv.org/pdf/1811.11742.pdf

https://github.com/facebookresearch/VideoPose3D

http://www.ai-galaxy.cn/

https://shop36573300.taobao.com/

 

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值