每日论文记录15-Faster VoxelPose: Real-time 3D Human PoseEstimation by Orthographic Projection(ECCV2022)

文章地址: [2207.10955] Faster VoxelPose: Real-time 3D Human Pose Estimation by Orthographic Projection (arxiv.org)

1.文章简介

 本文作为体素类方法的升级,是voxelpose的升级版,在性能保持差不多的同时,速度提升10倍,此方法不需要昂贵的3D神经网络,而是采用2D与1D网络,证明了其潜力。

2.文章框架

a.方法的输入是3D特征体积,通过将2D热图反向投影到3D体素空间来构建的,2D热图用HRnet来实现。

b.为了降低计算量,本文将3D体素特征投影到坐标系平面(xy,yz,xz),但这个方法对单人可能有效,但对多人尤其是互相遮挡的时候出现了问题,人会相互重叠,其发现了使用bird-eye view,也就是鸟瞰图,这是由于在z轴方向人们基本不可重叠,接下来进行两步:①用HDN网络检测所有的人通过3Dbounding box②使用联合定位网络对每个人进行细粒度姿态估计

b1.Human Detection Networks(HDR)

 首先通过HRnet输入2D热图,然后反向投影至3D,沿z方向进行最大池化,将特征重新投影至地平面xy,获得特征F(xy),将F(xy)馈送到2D全卷积网络,以检测xy平面中的人的位置,平面中所有人的位置由2D置信度图H(xy)编码,网格点(i,j)的置信值通过以下公式计算

 然后进一步估计了每个人的2Dbox大小,盒子的高度简单地设置为2000mm。这对于隔离多人干扰至关重要,尤其是在拥挤的场景中,损失如下

并进行偏移量的估计,损失如下

下一步进行对高度的回归, 损失如下:

总损失:

b2. Joint Localization Networks

 

关节也采取正交投影,并分别进行2DCNN得到每个投影面的投影骨架 

 

 3.实验结果

 

4.可视化 

 

 

 

 

 

  • 6
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值