文献阅读 (CV)Camera Distance-aware Top-down Approach for 3D Multi-person Pose

一去不复返的通信er

已于 2023-05-25 11:23:51 修改

阅读量3.8k

点赞数 2

分类专栏： Wi-Fi Sening 文献阅读文章标签：算法无线感知深度学习人工智能

于 2022-03-22 16:29:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42980908/article/details/123663013

版权

Wi-Fi Sening 文献阅读专栏收录该内容

12 篇文章

订阅专栏

动机：为什么作者想要解决这个问题？

尽管3D人体姿态估计取得了进步，但以前的大多数方法只处理单人情况

贡献：作者在这篇论文中完成了什么工作(创新点)？

多人姿态估计
能够得到以相机为中心人体关键点的绝对坐标，看这篇论文的原因
自上而下方法

规划：他们如何完成工作？

系统架构

1）DetectNet
裁剪提取出人体边框。
2）RootNet (重点)
RootNet利用裁剪后的人体图像，定位人体的根 $\mathbf{R}=\left(x_{R}, y_{R}, Z_{R}\right)$ ,其中 $x_{R}$ 和 $y_{R}$ 是像素坐标(不知道这个像素坐标和下面的有什么区别)， $Z_{R}$ 是绝对深度值。
3）PoseNet
从裁剪的人体图像中估计与根相关的 3D 姿态， $\mathbf{P}_{j}^{r e l}=\left(x_{j}, y_{j}, Z_{j}^{r e l}\right)$ ， $x_{j}$ 和 $y_{j}$ 是裁剪图像空间中的像素坐标， $Z_{j}^{\text {rel }}$ 是人体root的相对深度值。 $Z_{j}^{r e l}$ 加 $Z_{R}$ 得到 $Z_{j}^{a b s}$ ，然后将 $x_{j}$ 和 $y_{j}$ 转换到原始输入图像空间。最后通过简单的反投影得到最终的绝对3D 位姿。

理由：通过什么实验验证它们的工作结果

误差度量指标

有两种评估指标被广泛使用。第一个是平均每个关节位置误差 (MPJPE) [1]，它是在将估计的人体root与ground truth 3D 姿势对齐后计算的。第二个是进一步对齐后的 MPJPE（即 Procrustes 分析 (PA) [2]）,被称为 PA MPJPE。为了评估绝对 3D 人类根的定位，引入了root $\mathbf{R}$ 的估计坐标与 ground truth $\mathbf{R}^{*}$ 之间的欧几里得距离的平均值，即根位置误差 (MRPE) 的平均值，作为一个新的度量：
$E=\frac{1}{N} \sum_{i=1}^{N}\left\|\mathbf{R}^{(i)}-\mathbf{R}^{(i) *}\right\|_{2},$
其中上标 i 是样本索引，N 表示测试样本的总数。

自己的看法

最终实现效果

思考这种图怎么画出来的？？？

参考文献

[1] Human3.6m: Large scale datasets and predictive methods for 3d human sensing in natural environments.
[2] Generalized procrustes analysis

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。