HRNet(Deep High-Resolution Representation Learning for Visual Recognition)-人体姿态估计

HRNet是一种用于人体姿态估计的深度学习模型,它通过并行连接保持高分辨率特征表示,从而提高空间精度。网络设计包括多尺度卷积和融合,避免了传统CNN中低分辨率到高分辨率的恢复过程。这种架构在机器人学习、康复设备和AR/VR等领域有广泛应用。其优势在于保持了高分辨率信息,增强了多尺度特征的融合。
摘要由CSDN通过智能技术生成

人体姿态估计

人体姿态估计是从一副输入的原始图像中估计人体的各个关键点的位置,例如膝盖,臀部,肘部等。如下图所示,使用线条连接了身体部位的各个关键点的位置。
请添加图片描述
人体姿态估计任务应用于训练机器人,例如人形机器人;要学习某些动作,就要学习和模仿人的动作。同样,在一些人机用户的应用中,也有着相当多的应用,例如康复设备,AR/VR等。目前主流的人体估计方法都是基于卷积神经网络,这也是我们几天要说的HRNet基础。

HRNet提出的动机

HRNet,顾名思义,高分辨率网络(High-Resolution Network),用于处理高分辨率的图片。通过并行连接从高分辨率到低分辨率的卷积来保持高分辨率表示,其中并行卷积之间存在重复的多尺度融合。

多尺度并行

单从文字上面有点难以理解,可以仔细看下下面这张图。
请添加图片描述
我们可以看到四个浅蓝色的方块。每个方块都代表一个如上所述的多分辨率块,即一个“并行连接从高到低分辨率卷积”的块。多个通道图的并行处理的过程如下所示。黄色通道图代表最高分辨率,而红色小通道图代表最低分辨率。第四个块并行处理 4 个分辨率。

通过并行连接高低分辨率子网,而不是像大多数现有解决方案那样串联连接。这种方法可以保持高分辨率而不是通过从低到高的过程恢复分辨率,因此预测的热图可能在空间上更精确。

多尺度卷积和融合

在这里插入图片描述
多分辨率卷积其实是组卷积的简单扩展,它将输入通道划分为几个通道子集,并分别在不同的空间分辨率上对每个子集执行常规卷积(如Fig5 (a))。注意一下,组卷积时分辨率相同的。

请添加图片描述
多尺度融合类似于常规卷积的全连接形式,通过上采样和下采样进行多尺度的融合,如(Figure 3)。

优势

  1. 传统的卷积神经网络(例如低分辨率网络)串联工作,因此是从低分辨率中恢复了高分辨率。HRNet 的并行方法允许通过整个神经网络保持高分辨率,因此表示更精确。
  2. 其他方法聚合高分辨率和上采样的低分辨率表示。 HRNet 重复多尺度融合并在语义上加强不同分辨率的表示。
    请添加图片描述

HRNet和它的变种

在这里插入图片描述
a) 在 HRNetV1 中,只有高分辨率表示会导致输出(如下所示)。因此,来自低分辨率卷积的子集会丢失,并且不会完全包含在输出中。
b) 将低分辨率表示上采样到最高分辨率并连接所有通道。
c) 我们使用平均池化将高分辨率表示下采样到多个低分辨率来构建多级表示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值