1.文章简介
本文作为体素类方法的升级,是voxelpose的升级版,在性能保持差不多的同时,速度提升10倍,此方法不需要昂贵的3D神经网络,而是采用2D与1D网络,证明了其潜力。
2.文章框架
a.方法的输入是3D特征体积,通过将2D热图反向投影到3D体素空间来构建的,2D热图用HRnet来实现。
b.为了降低计算量,本文将3D体素特征投影到坐标系平面(xy,yz,xz),但这个方法对单人可能有效,但对多人尤其是互相遮挡的时候出现了问题,人会相互重叠,其发现了使用bird-eye view,也就是鸟瞰图,这是由于在z轴方向人们基本不可重叠,接下来进行两步:①用HDN网络检测所有的人通过3Dbounding box②使用联合定位网络对每个人进行细粒度姿态估计
b1.Human Detection Networks(HDR)
首先通过HRnet输入2D热图,然后反向投影至3D,沿z方向进行最大池化,将特征重新投影至地平面xy,获得特征F(xy),将F(xy)馈送到2D全卷积网络,以检测xy平面中的人的位置,平面中所有人的位置由2D置信度图H(xy)编码,网格点(i,j)的置信值通过以下公式计算
然后进一步估计了每个人的2Dbox大小,盒子的高度简单地设置为2000mm。这对于隔离多人干扰至关重要,尤其是在拥挤的场景中,损失如下
并进行偏移量的估计,损失如下
下一步进行对高度的回归, 损失如下:
总损失:
b2. Joint Localization Networks
关节也采取正交投影,并分别进行2DCNN得到每个投影面的投影骨架
3.实验结果
4.可视化