人体姿态估计
人体姿态估计是从一副输入的原始图像中估计人体的各个关键点的位置,例如膝盖,臀部,肘部等。如下图所示,使用线条连接了身体部位的各个关键点的位置。
人体姿态估计任务应用于训练机器人,例如人形机器人;要学习某些动作,就要学习和模仿人的动作。同样,在一些人机用户的应用中,也有着相当多的应用,例如康复设备,AR/VR等。目前主流的人体估计方法都是基于卷积神经网络,这也是我们几天要说的HRNet基础。
HRNet提出的动机
HRNet,顾名思义,高分辨率网络(High-Resolution Network),用于处理高分辨率的图片。通过并行连接从高分辨率到低分辨率的卷积来保持高分辨率表示,其中并行卷积之间存在重复的多尺度融合。
多尺度并行
单从文字上面有点难以理解,可以仔细看下下面这张图。
我们可以看到四个浅蓝色的方块。每个方块都代表一个如上所述的多分辨率块,即一个“并行连接从高到低分辨率卷积”的块。多个通道图的并行处理的过程如下所示。黄色通道图代表最高分辨率,而红色小通道图代表最低分辨率。第四个块并行处理 4 个分辨率。
通过并行连接高低分辨率子网,而不是像大多数现有解决方案那样串联连接。这种方法可以保持高分辨率而不是通过从低到高的过程恢复分辨率,因此预测的热图可能在空间上更精确。
多尺度卷积和融合
多分辨率卷积其实是组卷积的简单扩展,它将输入通道划分为几个通道子集,并分别在不同的空间分辨率上对每个子集执行常规卷积(如Fig5 (a))。注意一下,组卷积时分辨率相同的。
多尺度融合类似于常规卷积的全连接形式,通过上采样和下采样进行多尺度的融合,如(Figure 3)。
优势
- 传统的卷积神经网络(例如低分辨率网络)串联工作,因此是从低分辨率中恢复了高分辨率。HRNet 的并行方法允许通过整个神经网络保持高分辨率,因此表示更精确。
- 其他方法聚合高分辨率和上采样的低分辨率表示。 HRNet 重复多尺度融合并在语义上加强不同分辨率的表示。
HRNet和它的变种
a) 在 HRNetV1 中,只有高分辨率表示会导致输出(如下所示)。因此,来自低分辨率卷积的子集会丢失,并且不会完全包含在输出中。
b) 将低分辨率表示上采样到最高分辨率并连接所有通道。
c) 我们使用平均池化将高分辨率表示下采样到多个低分辨率来构建多级表示。