论文解读-Rethinking on Multi-Stage Networks for Human Pose Estimation

本文深入探讨了多阶段网络在人体姿态估计中的应用,提出改进的single-stage模块、Cross Stage特征融合及Coarse-to-fine Supervision策略。实验表明,这些优化能显著提高模型性能,尤其是在Coarse-to-fine Supervision策略上表现突出。
摘要由CSDN通过智能技术生成


新的一年,开始了新的征程。为了在检测方向走的更远,精读论文还是少不了的。笔者最近翻看了微软的COCO比赛官网,发现它包含了如下任务,

(1)目标检测(80类);

(2)人体关节点检测(17个点);

(3)Stuff分割(也即semantic分割,指代不规则目标的分割,比如grass、wall、sky、人群等);

(4)全景分割(包含了semantic分割 和 instance分割);
在这里插入图片描述
对于Keypoints 2018比赛,冠军队伍为Face++,亚军为MSRA,后者的工作在“Simple Baselines for Human Pose Estimation and Tracking”中有介绍,算法思路比较简单,大家感兴趣可以去读,本文主要讲解第一名的工作。

1 动机

在前面的博文中,笔者提到人体姿态估计的算法分为两种,top-to-down和bottom-to-up,这是从解决问题的顺序角度划分的。与此同时,如果从算法的网络结构方面考虑,可以划分成single-stage和multi-stage的算法。single-stage指经过一次encoder-decoder操作得到最终的关节点位置,比如上文中提到的MSRA的工作,而multi-stage指经过多次encoder-decoder操作得到最终的关节点位置,比如Hourglass network。

对分类任务而言,更深的网络往往比浅层网络效果更好,但是在COCO keypoints 2016、2017比赛中,冠军算法是single-stage的,为什么会这样呢?

针对multi-stage算法效果不好的问题,作者提出了3点可优化的方向,汇总如下&#x

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值