一、论文阅读与理解
摘要
作者如何引出自己的思路的?
作者在论文开篇指出,常用的2D→3D人体关节点的步骤一般分为两步:
①2D Detector定位二维图像上关节的位置;②对2D 执行鲁棒三角剖分以获取三维关节位置。
作者认为,常规步骤存在缺点。步骤①中,2D Detector如果不利用任何三维信息是无法解决挑战性的遮挡和视角倾斜等问题的(也就说,作者认为可以在2D Detector部分进行改进)。
作者顺势提出了自己的改进思路:所以我们提出了可微的“极线变换器(epipolar transformer)”,这使得2D Detector能够利用三维感知特征来改进二维姿势估计。原理是(涉及多视几何):给定当前视图中的二维位置p,我们希望首先在相邻视图中找到其对应的点p0,然后将p0处的特征与p处的特征相结合,从而在p处产生一个三维感知特征。受立体匹配启发,epipolar transformer利用极线约束和特征匹配来逼近p0处的特征。
为了证明自己的思路很可行,通过实验结果证明,直接上数据:
InterHand和Human3.6M的实验表明,我们的方法比基线有一致的改进。具体来说,在不使用外部数据的情况下,我们使用ResNet-50 backbone和256×256图像大小训练的Human3.6M模型在性能方面比现有模型高4.23mm,达到了MPJPE 26.9mm。
1.Introduction
论文的优点(创新点):
①epipolar transformer 可以很容易地添加到现有的网络结构中,因为它是完全可微的,并且输出特征尺寸与输入相同。
② epipolar transformer 包含最小可学习参数(参数大小为C- byc,其中C为输入特征通道大小)。
③epipolar transformer是可解释的,因为人们可以分析沿极线的特征相似性来判断匹配是否成功。
④只要提供了内在和外在的特性,通过epipolar transformer学习的网络可以推广到新的多摄像机设置,这些设置不包括在训练数据中。
2. Related Work
多视角