图分辨率_深度学习论文解读(7)——人体姿态估计的深度高分辨率表示学习(HRNet)...

本文深入探讨HRNet,一种保持高分辨率表示以进行人体姿态估计的深度学习模型。与传统方法从低分辨率恢复高分辨率不同,HRNet在全过程中保持高分辨率,通过多尺度融合提升准确性。实验结果显示,HRNet在COCO和MPII数据集上的关键点检测性能优越,并在PoseTrack数据集上展现出良好的姿态跟踪效果。
摘要由CSDN通过智能技术生成

e5dce51f865ec1ebb08c85c14449bfee.png

本文是中国科学技术大学和微软亚洲研究院联合发表的,已中选CVPR2019,原文链接为:

Deep High-Resolution Representation Learning for Human Pose Estimation​arxiv.org

作者还开源了代码:

leoxiaobin/deep-high-resolution-net.pytorch​github.com
3cd48e57fa6a4fa7add21622b2cfa983.png

摘要

在本文中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。 大多数现有方法从由高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。 相反,我们建议的网络在整个过程中保持高分辨率的表示。

我们从高分辨率子网开始作为第一阶段,逐个逐步添加高到低分辨率子网以形成更多阶段,同时并行连接多个子网。 我们进行重复的多尺度融合,使得高到低分辨率表示中的每一个一遍又一遍地从其他并行表示接收信息,从而获得丰富的高分辨率表示。 因此,预测的关键点热图可能更准确,空间上也更精确。 我们通过在两个基准数据集:COCO关键点检测数据集和MPII人体姿势数据集上的优越姿态估计结果,证明了我们网络的有效性。此外,我们展示了我们的网络在PoseTrack数据集上的姿势跟踪的优越性。 代码和模型已在https://github.com/leoxiaobin/ deep-high-resolution-net.pytorch上公开发布。


1、介绍

2D人体姿势估计一直是计算机视觉中的一个基本但具有挑战性的问题。它的目标是定位人体解剖学关键点(例如,肘部,腕部等)或部位。 它有许多应用,包括人类动作识别,人机交互,动画等。本文对单人姿态估计感兴趣,这是其他相关问题的基础,如多人评估,视频姿势估计和跟踪等。

最近的发展表明,深度卷积神经网络已经达到了最先进的性能。 大多数现有方法通过网络传递输入,通常由串联连接的高到低分辨率子网组成,然后提高分辨率。 例如,Hourglass通过对称的低到高过程恢复了高分辨率。 SimpleBaseline采用一些转置卷积层来生成高分辨率表示。 此外,扩张的卷积也用于放大(blow up)高到低分辨率网络的后期层(例如,VGGNet或ResNet)。

我们提出了一种新颖的架构,即高分辨率网络(HRNet),它能够在整个过程中保持高分辨率表示。 我们从高分辨率子网开始作为第一阶段,逐个逐个添加高到低分辨率子网以形成更多阶段,并且并行连接多分辨率子网。 我们通过在整个过程中反复交换并行多分辨率子网络中的信息来进行重复的多尺度融合。 我们估计了网络输出的高分辨率表示的关键点。 得到的网络如图1所示。

1fea95e43d1cd987c017dbf308ec746c.png
图1、本文提出的HRNet的架构说明

【图1:它由并行的高到低分辨率子网络组成,跨多分辨率子网络进行重复信息交换(多规模融合)。水平和垂直方向分别对应于网络的深度和特征图的比例。】

与用于姿势估计的现有广泛使用的网络相比,我们的网络有两个好处。(i)我们的方法并行连接高低分辨率子网,而不是像大多数现有解决方案那样串联连接。 因此,我们的方法能够保持高分辨率而不是通过从低到高的过程恢复分辨率,因此预测的热图可能在空间上更精确。(ii)大多数现有的融合方案汇总了低级别和高级别的表示。 相反,我们在相同深度和相似水平的低分辨率表示的帮助下执行重复的多尺度融合以提升高分辨率表示,反之亦然,导致高分辨率表示对于姿势估计也是丰富的。 因此,我们预测的热图可能更准确。

我们通过实验证明了两个基准数据集:COCO关键点检测数据集和MPII人体姿态数据集的优越关键点检测性能。此外,我们在PoseTrack数据集上展示了我们的网络在视频姿态跟踪中的优越性能。


2、相关工作

单人姿势估计的大多数传统解决方案采用概率图形模型或图形结构模型,最近通过利用深度学习来更好地模拟一元和成对能量或模仿迭代推理过程进行了改进。目前,深度卷积神经网络提供主导解决方案。 有两种主流方法:1、回归关键点的位置;2、估算关键点热图,然后选择热值最高的位置作为关键点。

用于关键点热图估计的大多数卷积神经网络包括类似于分类网络的stem子网,它能降低分辨率,主体产生具有与其输入相同分辨率的表示,随后是回归器估计关键点位置的热图估计,然后转换为全分辨率。 主体主要采用从高到低和从低到高的框架,可能增加了多尺度融合和中间(深度)监督。

High-to-low and low-to-high. 从高到低的过程旨在产生低分辨率和高水平的表示,而从低到高的过程旨在产生高分辨率表示。 这两个过程都可能重复几次以提高性能。

代表性的网络设计模式包括: (i)对称的从高到低和从低到高的过程。Hourglass及其后续工作将低到高的过程设计为高到低过程的一面镜子。(ii)Heavy high-to-low and light low-to-high。 从高到低的过程基于ImageNet分类网络,例如[11, 72]中采用的ResNet,而从低到高的过程只是一些双线性上采样[11]或转置卷积层。(iii)与dilated卷积相结合。 [27,51,35]中,在ResNet或VGGNet的最后两个阶段采用dilated卷积来消除空间分辨率损失,然后是一个轻微的低到高过程,以进一步提高分辨率,避免昂贵的仅使用dilated卷积的计算成本。 图2描绘了四个代表性的姿势估计网络。

34eb89ec0103019631dd4b351a02f28e.png
图2、依赖于从高到低和从低到高的框架的代表性姿态估计网络的图示。

【图2:(a)Hourglass. (b)级联金字塔网络. (c)SimpleBaseline: 用于从低到高处理的转置卷积. (d)与dilated卷积相结合. 右下角的图例:reg.=常规卷积,dilated=dilated卷积

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值