HRNet-学习记录

羊村第一突破手懒羊羊

已于 2023-08-07 08:50:30 修改

阅读量136

点赞数

文章标签：人工智能学习神经网络计算机视觉深度学习

于 2023-08-02 21:00:00 首次发布

本文链接：https://blog.csdn.net/lzf767801/article/details/132066245

版权

引入：本次学习内容基本来自于Ke Sun, Bin Xiao编写的的《Deep High-Resolution Representation Learning for Human Pose Estimation》，以及部分讲解视频，本学习记录仅为个人学习收获，部分内容存在纰漏烦请各位大佬批评指正。
（一）摘要：HRNet的主体部分包含四个阶段，每个阶段有四个并行的子网络。不同的是，HRNet将分辨率逐渐减半的传统做法改为保持高分辨率特征图，同时逐步增加每个分辨率上的通道数。这种设计决策使得网络可以在保留更详细的空间信息的同时，捕捉不同尺度的语义特征。论文中的HRNet采用了交换模块来促进多尺度特征的交互和信息流动。每个交换模块包含多个残差单元，每个单元由两个3×3卷积组成，分别在每个分辨率上进行操作，并通过交换单元在不同分辨率之间交换和整合信息。这种多尺度融合策略有效地提高了姿势估计的精确度和鲁棒性。

（二）发表时间：2019

（三）关键词：关键点检测，人体姿态，卷积网络

（四）学习记录：

HRNet关注的是人体姿势估计问题。现有的方法大多通过从高低分辨率网络生成的低分辨率表示中恢复高分辨率表示。然而，HRNet网络在整个过程中都保持高分辨率表示。

HRNet从一个高分辨率子网络作为第一阶段开始，逐步添加高低分辨率子网络来形成更多阶段，并将多分辨率子网络并行连接起来。作者进行重复的多尺度融合，使每个高低分辨率表示可以反复从其他并行表示中获取信息，从而获得丰富的高分辨率表示。因此，预测的关键点热图可能更精确且空间上更准确。结构如下图。

现有的姿势估计网络是通过将高到低分辨率的子网络串联连接而构建的，其中每个子网络形成一个阶段，由一系列的卷积层组成，并在相邻的子网络之间存在一个下采样层以减半分辨率。

设Nsr为第s阶段中的子网络，r为分辨率索引（其分辨率是第一个子网络分辨率的1/2^(r-1)）。结构如下。

作者从一个高分辨率子网络作为第一阶段开始，逐步添加高到低分辨率的子网络，形成新的阶段，并以并行方式连接多分辨率子网络。结果是，后面阶段的并行子网络的分辨率由前一阶段的分辨率组成，并额外增加了一个较低的分辨率。

下面给出一个包含4个并行子网络的示例网络结构：

重复的多尺度融合：作者在并行子网络之间引入交换单元，使得每个子网络可以反复接收来自其他并行子网络的信息。以下是一个示例，展示了信息交换的方案。作者将第三阶段分成几个（例如3个）交换块，每个块由3个并行卷积单元组成，并在并行单元之间添加一个交换单元，如下所示：

其中Cb,sr表示第s阶段第b块中第r分辨率的卷积单元，Eb,s表示相应的交换单元。交换单元如下所示。

输入是s个响应图：{X1，X2，...，Xs}。输出也是s个响应图：{Y1，Y2，...，Ys}，其分辨率和宽度与输入相同。每个输出是输入图的聚合，即Yk = Σi=1到s a(Xi, k)。跨阶段的交换单元还有一个额外的输出图Ys+1：Ys+1 = a(Ys, s + 1)。

函数a(Xi, k)包括将分辨率i的Xi进行上采样或下采样到分辨率k。我们采用带步长的3×3卷积进行下采样。例如，用步长为2进行2倍下采样的情况下，使用一个带步长2的3×3卷积；对于4倍下采样，则使用两个连续的带步长2的3×3卷积。对于上采样，我们采用简单的最近邻插值，并按照1×1卷积进行通道数的对齐。如果i = k，则a(·, ·)就是一个恒等连接：a(Xi, k) = Xi。

HRNet包含四个阶段，每个阶段有四个并行的子网络，其分辨率逐渐减半，相应地宽度（通道数）增加一倍。第一个阶段包含4个残差单元，每个单元类似于ResNet-50，由一个宽度为64的瓶颈组成，后面跟随一个3×3的卷积将特征图的宽度减少到C。第2、3、4个阶段分别包含1个、4个、3个交换单元。一个交换单元包含4个残差单元，每个单元在每个分辨率上都包含两个3×3的卷积和一个跨分辨率的交换单元。总共有8个交换单元，即进行了8次多尺度融合。

羊村第一突破手懒羊羊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HRNet-学习记录

第一个阶段包含4个残差单元，每个单元类似于ResNet-50，由一个宽度为64的瓶颈组成，后面跟随一个3×3的卷积将特征图的宽度减少到C。作者从一个高分辨率子网络作为第一阶段开始，逐步添加高到低分辨率的子网络，形成新的阶段，并以并行方式连接多分辨率子网络。结果是，后面阶段的并行子网络的分辨率由前一阶段的分辨率组成，并额外增加了一个较低的分辨率。现有的姿势估计网络是通过将高到低分辨率的子网络串联连接而构建的，其中每个子网络形成一个阶段，由一系列的卷积层组成，并在相邻的子网络之间存在一个下采样层以减半分辨率。
复制链接

扫一扫