OpenPose 论文思想主要概括

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

论文地址:https://arxiv.org/abs/1611.08050

文章的核心是提出一种利用Part Affinity Fields(PAFs)的自下而上的人体姿态估计算法。研究自下而上算法(得到关键点位置再获得骨架)而不是自上而下算法(先检测人,再回归关键点),是因为后者运算时间会随着图像中人的个数而显著增加,而自下而上所需计算时间基本不变。 


 
PAFs是用来描述像素点在骨架中的走向,用L(p)表示;关键点的响应用S(p)表示。先看主体网络结构,网络采用VGG pre-train network作为骨架,有两个分支分别回归L(p)和S(p)。每一个stage算一次loss,之后把L和S以及原始输入concatenate,继续下一个stage的训练。随着迭代次数的增加,S能够一定程度上区分结构的左右。loss用的L2L2范数,S和L的ground-truth需要从标注的关键点生成,如果某个关键点在标注中有缺失则不计算该点。 


 
对于S,每一类关键点有一个channel,生成ground-truth的时候是按照多个高斯分布取max的方法来保留各个点的响应峰值。对于L 则复杂一点,先看准确定义,对于第k个person的第c个肢干上的PAFs: 

在得到关键节点以及边权之后,计算姿态骨架已经完全转化成了一个图问题。文中没有采用全局优化的方法,而是利用匈牙利算法对相邻节点进行了最优匹配(比如一堆左手腕节点和一堆左手肘节点,利用小臂的PAF计算边权,再进行最优匹配),最后获得整个的人形姿态骨架。
实验效果也非常好,主要是速度快。附带代码地址 https://github.com/CMU-Perceptual-Computing-Lab/openpose 

<think>好的,用户需要查找OpenPose相关的论文,尤其是研究论文。首先,我应该回顾一下系统级指令的要求,确保回答符合格式。用户的问题集中在OpenPose论文上,所以需要找到相关的引用信息。 查看提供的引用,引用[2]提到了OpenPose的实时多人2D姿势估计论文,并附有GIF示例,说明用户已经部分构建了项目。引用[3]讨论了OpenPose的自底向上方法,对比其他团队的方法,指出其效率优势。这些引用已经提供了部分论文信息,但需要更具体的引用来源。 根据用户提供的引用,引用[2]中提到的论文可能是OpenPose的关键论文。通常,这类论文会发布在arXiv上,所以需要确认论文的标题和作者。根据记忆,OpenPose的原始论文是“Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields”,由Cao等人于2017年发表在CVPR上,但arXiv版本可能更早。用户提供的引用[1]链接是arXiv的1704.04861,但该链接实际上属于MobileNet的论文,这可能是一个错误。因此,需要纠正这一点。 用户可能在引用中混淆了不同的论文。正确的OpenPose论文arXiv编号应为1611.08050,但根据用户提供的引用[2],没有给出具体的arXiv链接。因此,可能需要建议用户直接查找Cao等人在2017年的论文,或者访问OpenPose的官方网站获取正确引用。 此外,用户可能需要知道如何访问论文,比如通过arXiv、CVPR会议论文集,或者通过Google Scholar搜索标题。同时,用户可能对论文的核心贡献和方法感兴趣,如PAFs(Part Affinity Fields)和自底向上方法,这些在引用[2]和[3]中都有涉及。 最后,生成相关问题时,应考虑用户可能的后续需求,如技术细节、应用场景或与其他方法的比较。确保问题覆盖这些方面,帮助用户深入理解OpenPose。</think>### OpenPose研究论文 OpenPose的原始研究论文为《Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields》,由Zhe Cao等人于2017年提出,首次实现了实时多人2D姿态估计。其核心创新是通过**部件亲和场(Part Affinity Fields, PAFs)**将检测到的身体关键点关联成完整的骨骼姿态[^2],同时采用**自底向上的方法**避免了全局推理的计算开销,显著提升了效率(每张图像仅需数毫秒)[^3]。 #### 论文关键点: 1. **自底向上流程** - 先检测所有人体关键点(如关节),再通过PAFs关联关键点形成个体,解决了多人场景中重叠和遮挡问题。 2. **部件亲和场(PAFs)** - 使用向量场编码肢体方向和位置信息,公式为: $$ \text{PAF}(p) = \begin{cases} \frac{\boldsymbol{v}}{||\boldsymbol{v}||_2} & \text{若点}p在肢体内} \\ 0 & \text{否则} \end{cases} $$ 其中$\boldsymbol{v}$为肢体方向向量[^2]。 3. **多阶段CNN架构** - 第一阶段预测关键点热图,后续阶段迭代优化PAFs和关键点。 #### 获取论文: - **arXiv版本**:https://arxiv.org/abs/1611.08050 - **CVPR 2017版本**:https://openaccess.thecvf.com/content_cvpr_2017/html/Cao_Realtime_Multi-Person_2D_CVPR_2017_paper.html
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值