Deep High-Resolution Representation Learning for Human Pose Estimation

概述

这篇论文是中国科技大学和微软亚洲研究院的论文,被 CVPR2019接收。

Motivation
已经存在的大多数方法都是从低分辨率恢复高分辨率,相反,本文一直保持高分辨率,这样预测的heatmap更加精确,预测的关节点更加准确。

网络框架

在这里插入图片描述
网络从一个高分辨率子网开始,逐步添加高到低分辨率子网来形成更多阶段,并且并行连接多个分辨率子网,然后执行多尺度融合。

网络细节
以输入256x192为例,通过stem net, stem net结构如下:
3x3 conv,通道3->64,stride=2,padding=1
3x3 conv,通道64->64,stride=2,padding=1
bottleneck(64,64,stride=1,None) # 通过一个bottleneck,通道由64变为256
3个bottleneck(256,64) # 通道256变为256

然后通过transtion1层,注意:所有的transtion层都是在原来层的基础上新增一个低分辨率分支。transtion1如下:
上一步输出为(64,64,48)(即C通道、H高度、W宽度),分别通过两个分支
一个分支为3x3conv,通道256->32,stride=1,padding=1,这一分支是论文里面所提到的高分辨率层。
另一个分支是3x3conv,通道256->64,stride=2,padding=1。上分支输出分辨率是下分支的二倍,而通道数是下分支的1/2.

然后通过stage2层:注意stage层主要通过BasicBlock进一步提取图像特征,并且进行多尺度融合。结构如下:
上一步输出两个结果,一个通过BasicBlock(32,32,1) + 3个BasicBlock(32,32),另一个通过BasicBlock(64,64,1) + 3个BasicBlock(64,64),然后上分支通过卷积将通道数加倍,分辨率减半,与下分支融合;下分支通过卷积将通道数减半,进行两倍上采样,与上分支融合。

其他阶段的类似,不过stage4,所有低分辨率都向分辨率融合,然后在最高分辨率进行heatmap预测。对于HRNet-W32指的是最高分辨率的通道数为32。

与其他网络的对比
在这里插入图片描述
图(a)是沙漏网络,它通过重复的top-down和bottom-up来提取多尺度特征,然后相邻两个分辨率进行融合。

图(b)是CPN。它分为global net和refine net。global net负责检测容易检测的关节点,refine net检测难的关节点。global net是FPN的结构,输出4个不同分辨率的heatmaps,然后分别在每个heatmap上做MSE(均方误差)作为global loss;global net输出的4个feature maps,先通过卷积时的通道数相同,然后输入到refine net,再通过bottleneck,再进行上采样,使得所有feature maps的通道数和分辨率相同。refine net为了检测难的关节点,需要用到上下文信息,所以这里进行了concat操作。然后进行卷积输出最终的heatmap。

图©是将上采样方法换成了反卷积。图(d)是和扩张卷积的结合。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深度高分辨率表示学习是一种用于视觉识别的技术,旨在从图像中学习到更高质量和更具表达力的特征表示。在传统的视觉识别任务中,如图像分类、目标检测和语义分割,传统的特征表示方法通常提取低级或中级特征,这些特征可能无法有效地捕捉到图像的复杂信息。而深度高分辨率表示学习通过多层神经网络的结构和大规模训练数据来学习更深层次、更富有语义的图像特征。 深度高分辨率表示学习方法通常包含以下几个关键步骤:首先,通过使用深度卷积神经网络(DCNN)架构来学习特征表示。DCNN是一种层次结构复杂、能够从原始像素数据中自动学习特征的神经网络。其次,利用大规模的标注数据进行训练,通过反向传播算法来更新网络的权重和偏置参数,从而最小化预测误差。最后,在训练过程中采用一些优化策略,如数据增强、正则化和优化器选择等,以提高网络的泛化能力和识别性能。 深度高分辨率表示学习在计算机视觉领域有着广泛的应用。一方面,它可以用于图像分类,通过学习到的高质量特征表示,可以在分类任务中获得更高的准确性和鲁棒性。另一方面,它也可以用于目标检测和语义分割任务,通过学习到的特征表示,可以更准确地定位和分割图像中的对象。此外,深度高分辨率表示学习还可以用于识别特定的物体、场景或人脸,从而应用于人脸识别、目标跟踪和智能安防等领域。 总之,深度高分辨率表示学习是一种能够有效提高视觉识别任务准确性和鲁棒性的技术。它通过学习到更深层次、更富有语义的图像特征表示,提供了更强大的图像分析和理解能力,为计算机视觉领域的各种应用提供了重要的支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值