HRNet 之后，姿态估计还有研究空间么？

最新推荐文章于 2024-09-23 15:41:42 发布

自动驾驶之心

最新推荐文章于 2024-09-23 15:41:42 发布

阅读量90

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247624683&idx=5&sn=b37af82d69e0e20894f741697024797d&chksm=cfb57503c9ebe5771258a9f9cea2fedea5cf50d5f84f0753b08f6256f8126434dbf086777e10&scene=126&sessionid=0

版权

作者 | Zephyr 编辑 | 自动驾驶之心

原文链接：https://www.zhihu.com/question/419435709/answer/3599456113

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『姿态估计』技术交流群

本文只做学术分享，如有侵权，联系删文

1. 人体姿态估计Sota项目（DWPose）

它是目前2D人体姿态估计在COCO-WholeBody上的SOTA方法（paperwithcode）

这是一个新的两阶段知识蒸馏框架（Two-stage Distillation Framework, TPD），旨在提高全身姿态估计的效果和效率。这个方法的第一阶段通过预训练的教师模型从特征和逻辑层面指导学生模型学习，强制学生模型模仿教师模型的特征和输出。第二阶段则引入了一种自蒸馏（self-KD）方法，学生模型通过自身的逻辑输出来进一步优化其头部特征，这显著提高了模型的性能，且只需20%的训练时间。该方法在COCO-WholeBody和UBody数据集上取得了最先进的表现，并且具有显著的时间和资源效率。已发表在ICCV 2023

2. 项目链接

GitHub：
github.com/IDEA-Research/DWPose/tree/onnx
demo：可直接测试图片和视频
openxlab.org.cn/apps/detail/mmpose/RTMPose
Colab：可能会遇到环境安装问题，可以跳过到测试步骤，有其他问题可以私信我共同探讨
colab.research.google.com/drive/1A_62XOy2pdDyk9gpAPR6nwO74KbUuLIo?usp=sharing

3. 测试场景与结果

单人背影测试：

耗时：2.0秒

多人场景测试：

耗时：2.9秒

4. 其他模型的测试结果

rtmpose（body）：

耗时：1.7秒

rtmo（body）：

耗时：3.3秒

rtmw（wholebody）：

耗时：2.3秒

5. 总结

优点：使用姿态估计的方法进行人体姿态估计耗时较长但精度较高，可以直接对原始图片进行检测，无需先行人检测。特别是DWPose方法在识别背影中的人体姿态上表现出色。
缺点：当行人重叠时，存在漏检情况。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频