『关键点检测』CPN:Cascaded Pyramid Network for Multi-Person Pose Estimation

论文连接

网络简介

face++2017年coco keypoint benchmark 数据集冠军的文章,发表于CVPR201

1  提出了一种金字塔型的串接模型,即CPN(cascaded pyramid network),这个模型能够同时兼顾人体关节点的局部信息以及全局信息,结果取得了不错的效果;

2   使用了在线难例挖掘(online hard keypoints mining)的技术,这对于人体姿态估计任务中一些存在遮挡的“hard”的关键点的预测有所帮助;

3   测试阶段考量了soft-NMS和传统的hard-NMS(非极大值抑制)在human detection阶段产生的影响,结论是soft-NMS对于最后的结果是有所帮助的。

本算发聚焦点在于处理多人姿态估计所面临的挑战:关键点遮挡,关键点不可见,复杂背景等——就是优化对于难以检测的点的预测,即着重于处理 “hard” 关键点。思路就是detector先定位bbox,然后使用CPN检测关键点,其中原作者使用的是FPN进行bbox定位(下图解释了FPN的优越性),并应用了ROIAlign。

CPN本体由两部分组成:GlobalNet和RefineNet,流程如下图所示,GlobalNet对关键点进行粗提取,RefineNet精细加工难以识别的网络(RefineNet对不同层信息进行了融合,可以更好的综合特征定位关键点),首先对于可以看见的easy 关键点直接预测得到,对于不可见的关键点,使用增大感受野来获得关键点位置,对于还未检测出的点,使用上下文context进行预测。。

GlobalNet 采用类似于FPN的特征金字塔结构,并在每个elem-sum前添加了1x 卷积,负责网络所有关键点的检测,重点是对比较容易检测的眼睛、胳膊等部位的关键点。

RefineNet基于GlobalNet生成的特征金字塔,其链接了所有层的金字塔特征用于定位“hard”关键点,GolbalNet对身体部位的那些遮挡,看不见,或者有复杂背景的关键点预测误差较大,RefineNet则专门修正这些点。主要还是基于shortcut的思想,在该阶段的训练中,还使用了类似OHEM的online hard keypoints mining难例挖掘策略。

下图表示的更明显,眼睛等关键点GlobalNet 直接输出结果,其他关键点使用添加了RefineNet 的组合网络输出结果:

实验要点

(1)数据增强,提升0.4map

训练数据的处理上使用了随机翻转,(-45度,45度)的随机旋转,(0,7,1.35)的随机尺度变换

(2)大batch的训练,主要针对检测框架,提升0.4-0.7map

(3)在行人检测框架中使用soft NMS取代hard NMS,提升0.3map

(4)随着检测map的提高,关键点的map提升非常有限

(5)online hard keypoints mining
在coco 数据集中有17个关键点需要预测,GolbalNet预测所有的17个点,并计算所有17个点的loss,RefineNet也预测所有的17个点,但是只有最难的8个点的loss 贡献给总loss。作者称这为OHEM。

(6)多模型融合集成,提升1.1-1.5map在coco minval数据集上

转载于:https://www.cnblogs.com/hellcat/p/10138036.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值