论文简介
本推文详细介绍了一篇上海交通大学电子信息与电气工程学院自动化系计算机视觉实验室(以下简称为CVL)赵旭教授课题组的最新论文《RSB-Pose: Robust Short-Baseline Binocular 3D Human Pose Estimation with Occlusion Handling》,该论文发表在国际图像处理领域的顶级期刊IEEE Transactions on Imaging Processing(IF为10.8,中科院一区)。该论文的第一作者是上海交大自动化系博士生万潇月,通讯作者为赵旭教授。在本研究中,为了解决短基线双目三维人体姿态估计任务中的三维重建鲁棒性问题和双目同时遮挡问题,论文提出了一种鲁棒短基线双目姿态估计算法(RSB-Pose)。本研究已在短基线双目数据集(MHAD)以及宽基线双目场景(H36M)验证了新算法RSB-Pose的有效性,展示了所设计算法在双视图严重遮挡情况下的三维人体姿态估计的潜力。
推文作者为万潇月,审校为赵旭老师。
论文链接:
https://ieeexplore.ieee.org/document/10770149
https://arxiv.org/abs/2311.14242
代码链接:
https://github.com/sherrywan/stereo-estimation
论文主页:
https://cvl.sjtu.edu.cn/getpaper/1109
课题组主页:
https://cvl.sjtu.edu.cn/content/rtztgj
期刊介绍
IEEE Transactions on Image Processing是由电气与电子工程师协会(Institute of Electrical and Electronics Engineers, IEEE)出版的一本同行评议的学术期刊,它涵盖了图像、视频和多维信号在各种应用中的形成、捕获、处理、通信、分析和显示中的新理论、算法和架构,该期刊关注的主题包括但不限于图像、视频和多维信号的数学、统计和感知建模、表示、生成、编码、滤波、增强、恢复、渲染、半色调处理、搜索和分析,应用领域涉及图像和视频通信、电子成像、生物医学成像、图像和视频系统以及遥感等。IEEE Transactions on Image Processing期刊最新的影响因子为10.8,是图像处理领域的权威学术期刊。
研究背景及主要贡献
在日常应用广泛的三维人体姿态估计领域,对便捷采集设备的需求不断增长。为了满足这一需求,我们专注于短基线双目设置,它既具有便携性,又具有几何测量能力,可显著降低深度模糊性。然而,随着双目基线的缩短,出现了两个严峻的挑战:首先,三维关节点重建对二维关节点估计误差的鲁棒性降低;其次,由于两个视图之间的视觉差异有限,双目同时遮挡频繁发生。为此,我们提出 RSB-Pose 算法,针对性地解决上述问题,提高短基线双目三维人体姿态估计的精度。
图1 短基线双目场景下三维人体姿态估计的两大挑战
论文主要贡献如下:
(1) 提出了一种新的立体共生关节点估计(SCE)模块,用于估计双目二维关节点,它使用立体体积特征(SVF)来提高视图一致性,SVF提供了更高效、更灵活的双目点对应表示,SCE模块提高了三维姿态重建的稳健性,尤其是在短基线场景中。
(2) 引入预训练的姿态变换器(PT),设计预训练策略使PT能够捕获三维姿态中的语义信息,以增强三维姿态连贯性,并有效解决短基线中双目同时频繁遮挡的问题。
(3) 进行了一组全面的实验来证明我们方法的有效性,证明RSB-Pose方法显著提高了H36M和MHAD数据集上的双目三维人体姿态估计性能。
方法
图2 RSB-Pose算法流程
给定一对双目 RGB 图像,RSB-Pose 算法的实现分为三个步骤:
1) 立体共生关节点估计。基于双目融合的立体体积特征,实现双目二维关节点同步回归。
2) 三维人体姿态初始化。使用三角测量法,从双目二维关节点重建初始三维人体姿态。
3) 三维人体姿态优化。设计自监督任务,利用预训练学习姿态内部的连贯性,实现三维姿态优化。
(1)立体共生关节点估计
在双目场景中,一个视图中的像素作为关节点的可能性应该由它在另一视图中的对应像素共同确定,但核心挑战在于识别这个对应像素。我们利用视差来描述这种对应关系,并提出立体共生关节点估计(SCE)模块来同时估计双目二维关节点。
SCE 的框架包括:I. 注意力掩码生成,将初始特征聚焦于感兴趣的人体;II. 立体体积特征(SVF)生成,以视差空间拼接的双目视图特征形成四维体积特征;III. 二维双目拆解,从 SVF 回归的共生关节点中求解双目二维关节点。
图3 立体共生关节点估计模块流程
(2)预训练的姿态变换器
为了捕捉三维人体姿态内的连贯性,我们提出了一个自监督任务来预训练姿态变换器(PT),该任务的目标是恢复整个三维姿态内被遮挡的关节点。为了填补预训练中的真实输入与推理过程中的估计输入之间的差距,我们采用了一种迭代恢复策略:在每次迭代结束时,依据姿态变换器的注意力权重计算置信度,仅保留前K个可信的遮挡点恢复结果。最后,我们将预训练好的PT与初始三维姿态串联,进行端到端训练,从而生成带有连贯性约束的三维人体姿态。
图4 预训练姿态变换器的模块流程
实验及结果
(1) 实验细节
在三维人体姿态估计任务上,实验采用了两个数据集以验证RSB-Pose在短基线双目下的鲁棒性和在宽基线双目下的泛化能力。MHAD Berkeley被用于构建短基线双目场景,该数据集包含12名参与者执行的11个动作,其中参与者8和11用于测试。我们选择L1四摄像头中的两对相机(1-3和2-4),构建了200毫米的短基线双目场景。H36M用于构建宽基线双目场景,该数据集涵盖11位参与者执行的多种动作,其中参与者1、5、6、7和8的数据用于训练,而9和11则用于测试。我们选择两对相机(1-3,2-4)来提供大约 3000 毫米的宽基线设置。
论文中提出的RSB-Pose方法使用PyTorch实现。两个预训练过的二维估计主干网络被用来验证RSB-Pose的有效性:ResNet和HRNet,每个主干网络都测试了两种图像输入尺度。我们首先使用MHAD和H36M的组合训练集对PT预训练了200个epoch。随后,整个框架的训练分为两个步骤:SCE 模块的预训练和整个网络的端到端训练。SCE 模块结合二维估计主干网络和三角测量三维重建进行训练,二维估计主干网络的学习率被设为0.0001,其他部分的学习率为0.001。最终整个框架的端到端训练在0.0001的学习率下进行。上述框架训练过程在不同的训练数据集上是分别进行的:我们在MHAD 上训练了10个epoch,在 H36M上训练了6个epoch。
(2) 实验结果
实验证明,相较于已有的多目方法以及双目方法,我们提出的 RSB-Pose 在短基线双目(MHAD)场景下体现出了精度优势,且对宽基线双目(H36M)场景也具备泛化性。
表1 在MHAD数据集上,RSB-Pose和其他方法的性能比较
表2 在H36M数据集上,RSB-Pose和其他方法的性能比较
通过与已有方法估计的三维人体姿态做可视化比较,RSB-Pose 更擅长估计灵活的肢体关节,包括肘部、腕部、膝盖、脚踝和头部。并且,即使在两个视图中都存在严重遮挡的情况下,RSB-Pose 也能提供合理的结果。
图5 可视化比较
总结与展望
论文提出了RSB-Pose,一种针对短基线双目三维人体姿态估计的方法。我们设计了SCE模块,通过提升双目二维关节点的视角一致性来获得更稳健的三维姿态估计结果。该模块利用视差表示双视图中二维点的对应关系,引入SVF结构实现不同视差下的双目特征融合,从而回归双目共生关节点。此外,我们设计了自监督任务以实现对PT的预训练,使其具备感知三维姿态语义知识的能力,并将学习到的姿态连贯性注入到初始三维姿态中,从而优化估计结果,以应对遮挡问题。我们在两个基准数据集上评估了RSB-Pose:H36M和MHAD,并进行了广泛的实验,验证了其在应对二维姿态估计误差和遮挡方面的有效性与鲁棒性。研究结果证明了SCE在促进三维关节点重建的有效性,同时证明了预训练PT能够以构建关节点关联的方式建模姿态内部的连贯性。整体而言,本论文显著提升了短基线双目三维人体姿态估计的精度,为各类下游任务提供了有效、便捷的解决方案,有助于突破了使用场景的限制。