又快又稳,研究、落地全都要!姿态估计全能选手 RTMPose 来啦!

背景介绍

在正式开讲之前,先给大家小段热舞:

姿态估计,计算机视觉的核心任务之一,还原纷繁外表之下的空间信息,洞察千姿百态背后的本征结构。

MMPose 作为 OpenMMLab 开源算法体系中的姿态估计算法库,自 2020 年发布以来,经过 2 年的不断迭代打磨,已经成为姿态估计领域覆盖算法最多,功能最全的开源算法库之一。

近年来,前沿姿态估计算法不断迭代,在公开数据集上的性能屡创新高(目前姿态估计的 SOTA 算法精度已经在 MS COCO 数据集上超过了 80% AP),但在工业界的实际业务中,主流应用的依然是几年前的算法。明明有前沿的 SOTA 算法和模型,然而在真实的业务中却很难落地,工业界的小伙伴们只能望洋兴叹。为什么呢?

这一切的原因都在于,这些算法都太慢了!沉重的计算量与高昂的延迟,意味着昂贵的硬件与成本,而移动端和各种边缘设备由于算力本身受限,算法精度又会一落千丈。更何况,很多应用本身就对算法实时性有着极高的要求。

RTMPose,正是为此而来。随着 MMPose 1.0 的发布,为了让 MMPose 能够在更多业务场景和产品中帮助到大家,MMPose 团队重点推进了业界可用的高性能算法的研发,经过潜心酝酿与砥砺打磨,RTMPose 终于来啦!

通过研究多人姿态估计算法的五个方面:范式、骨干网络、定位算法、训练策略和部署推理,我们的 RTMPose-m 模型在 COCO 上达到 75.8%AP 的同时,能在 Intel i7-11700 CPU 上用 ONNXRuntime 达到 90+FPS,在 NVIDIA GTX 1660 Ti GPU 上用 TensorRT 达到 430+FPS。RTMPose-s 以 72.2%AP 的性能,在手机端 Snapdragon865 芯片上用 ncnn 部署达到 70+FPS。

在 MMDeploy 的帮助下,我们的项目支持 CPU、GPU、Jetson、移动端等多种平台,支持 ONNXRuntime、TensorRT、ncnn、OpenVINO、RKNN 等多种部署框架。

表 1 RTMPose 推理速度概览

体验地址: https://github.com/open-mmlab/mmpose/tree/dev-1.x/projects/rtmpose

效果展示

图 1 卧姿仰卧起坐

图 2 戴口罩的半身人脸

统一的性能对比

在调研过程中我们发现,当前市场上主流的姿态估计项目,比如基于 PaddleDetection 的 PP-TinyPose、上交开源的 AlphaPose、Google 发布的 MoveNet 和 MediaPipe 等,它们缺乏统一的对比,在汇报精度时,各自使用的验证集、硬件等都存在差异,即使是同一份 COCO val2017 数据集,大家也按照不同的标准进行了人工筛选和过滤,并且未公开。

于是,我们在相同硬件上逐一部署,在统一的 COCO val2017 上测试了它们的性能表现,与 RTMPose 进行对比。

图 4 主流姿态估计算法性能对比(COCO val2017)

考虑到各自针对的应用场景不同,比如 PP-TinyPose 和 MoveNet 都是针对移动端设计的姿态估计算法,面向的也主要是单人姿态估计,所以我们也从 COCO val2017 构建了一个单人验证集来进行仔细对比。

图 5 主流单人姿态估计算法性能对比(COCO-SinglePerson)

通过上述对比可以看到,RTMPose 与主流姿态估计项目相比有着更加优秀的精度-速度平衡。后续还会有基于 MMRazor 的剪枝、蒸馏和量化算法加入到 RTMPose 项目中,进一步强化轻量模型性能。

图 6 剪枝算法预览

内测业务表现

RTMPose 自预热以来受到了社区的热烈关注,我们邀请了一批工业界的积极用户参与到内测中,以下是社区小伙伴在自己的公司业务数据和设备上试用后的反馈结果。

部署实测

表 2 社区实测硬件部署性能(单位:毫秒/帧)业务性能数据

业务性能数据

表 3 社区实测业务数据集性能对比

通过内测反馈可以看到,RTMPose 可以方便地部署到各种不同硬件上,在落地业务上更是直接带来了十多个百分点的精度提升~

友好的上手教程

我们为用户准备了详细的中英文教程,手把手带领大家进行模型的训练、部署和推理,不论你是在 CPU、GPU还是手机端、Jetson 平台,使用的语言是 Python、C++ 还是 JAVA,都可以快速进行 RTMPose 的部署。

图 7 部署教程预览

基于 MMDeploy 预编译包,用户可以省去复杂的环境配置与安装,快速感受 RTMPose 带来的极速体验。

图 8 预编译包部署教程预览

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!

同时欢迎添加小编微信: cv_huber,备注CSDN,加入官方学术|技术|招聘交流群,一起探讨更多有趣的话题!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值