Parsing R-CNN(CVPR2019)-人体实例分析论文解读


论文: 《Parsing R-CNN for Instance-Level Human Analysis》
github: https://github.com/soeaver/Parsing-R-CNN

解决问题

本文提出Parsing R-CNN可进行实例级人体分析,在CIHP、MHP v2.0、DensePose-COCO数据集取得SOTA,获得COCO2018挑战赛冠军;
Parsing R-CNN从以下4个方面进行探究:
1、为了强化特征语义信息及保持特征分辨率,使用proposal分离采样策略,目标检测分支RoIPool仅在合适的特征层级执行,人体解析分支RoIPool在最精细特征层P2进行;
2、为了获取细节信息用于区分实例中不同人体部件及稠密点,扩大RoI分辨率;
3、提出几何及上下文编码模块,用于扩大感受野,捕获不同人体部件之间相关性;
4、解耦解析分支为三部分:语义空间变换、空间及上下文编码、语义特征表征;

算法

Parsing R-CNN算法如图2,
在这里插入图片描述

proposal分配采样策略(PSS)

FPN中对于大尺寸RoI分配到粗糙特征层(P5、P6);如图3,经统计,CIHP数据集及MHP数据集中大部分目标尺寸超过图片尺寸10%,如果用此策略将分配到粗糙特征层,从而对于眼镜、手表等小目标类别难以提供细节信息
在这里插入图片描述

为解决此问题,作者提出PSS,bbox分支扔采用FPN中尺度分配策略,parsing分支的RoIPool/RoIAlign仅在精细化特征层P2进行

放大RoI分辨率(ERR)

过小RoI分辨率将导致损失细节信息,为解决此问题,Parsing分支作者使用32*32分辨率
为解决训练时长及内存过载,作者将Parsing分支batch设置为固定值,比如32,这在保证性能同时加速收敛

空间上下文编码(GCE)

FCN对池化特征进行预测mask,但是用于人体分析有三个缺点:
1、人体部件尺寸不一,因此需要包含多尺度信息的特征;
2、每个人体部件,空间相关联,需要非局部特征;
3、32 * 32的RoI需要较大感受野,堆叠4个或8个3 * 3卷积不够;

ASPP在语义分割已验证有效性,通过并列卷积层(不同dilation)获取不同尺度信息
Non-local可以捕获远距离依赖关系
作者结合ASPP及non-local优势,提出GCE替换parsing分支中FCN,如图5,GCE可有效区分人体的不同部件;
在这里插入图片描述
GCE结构如图4所示,
RoI特征,经过全局平均池化及1 * 1卷积,而后通过双线性插值上采样到RoI特征尺寸32 * 32,图4中ASPP最左侧分支;
ASPP包括1个1 * 1卷积、3个3 * 3卷积(dilation为6,12,18),输出4个特征层,5个特征层通过通道维进行concat;
作者使用的non-local中相似性度量为embedde Gaussian,参考:https://zhuanlan.zhihu.com/p/33345791
Parsing分支输出模块,使用1个kernel为4的转置卷积进行2倍上采样,及双线性插值进行上采样上采样2倍;
在这里插入图片描述

分支解耦(PBD)

作者将parsing分支解耦为GCE前语义空间变换、GCE模块、GCE后转好语义特征至特定任务;

实验

人体部件分割实验

在CIHP数据集上,消融实验结果如表6所示:
在这里插入图片描述

  1. PSS提升1个点,如表1如果box分支及parsing分支都仅使用P2层特征可提升0.5;
    在这里插入图片描述

  2. ERR(32*32)可提升2.8个点;

  3. 与堆叠8个3 * 3卷积层相比,GCE可提升2个点;如表3仅使用Non-local将使得性能下降,但是与ASPP结合,可提升性能,可能由于ASPP使得特征更加丰富;
    在这里插入图片描述

  4. 如表4,在GCE前增加卷积层无必要,由于GCE可进行语义空间变换;
    在这里插入图片描述

  5. 如表5,使用COCO关键点预训练模型或延迟2-3倍训练时长,均可带来性能提升;
    在这里插入图片描述
    表7为在MHP v2.0数据集上消融实验结果;
    在这里插入图片描述
    表8为与目前SOTA方法比较实验;
    在这里插入图片描述

稠密姿态点估计实验

作者基于DensePose RCNN进行消融实验,结果如表9,在ResNeXt101 backbone上提升6.1个点;
在这里插入图片描述

结论

作者提出基于区域的实例级人体解析方案Parsing RCNN从4个角度进行探究人体分析存在问题:Proposal分配采样策略、扩大parsing分支RoI池化输出分辨率、GCE、parsing分支解耦。取得SOTA性能。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值