HRNet（Deep High-Resolution Representation Learning for Visual Recognition）-人体姿态估计

最新推荐文章于 2025-03-09 21:00:58 发布

轩辕小猪

最新推荐文章于 2025-03-09 21:00:58 发布

阅读量2.9k

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络 cnn

本文链接：https://blog.csdn.net/qq_36711003/article/details/125959103

版权

深度学习专栏收录该内容

2 篇文章

订阅专栏

HRNet是一种用于人体姿态估计的深度学习模型，它通过并行连接保持高分辨率特征表示，从而提高空间精度。网络设计包括多尺度卷积和融合，避免了传统CNN中低分辨率到高分辨率的恢复过程。这种架构在机器人学习、康复设备和AR/VR等领域有广泛应用。其优势在于保持了高分辨率信息，增强了多尺度特征的融合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

人体姿态估计

人体姿态估计是从一副输入的原始图像中估计人体的各个关键点的位置，例如膝盖，臀部，肘部等。如下图所示，使用线条连接了身体部位的各个关键点的位置。
请添加图片描述
人体姿态估计任务应用于训练机器人，例如人形机器人；要学习某些动作，就要学习和模仿人的动作。同样，在一些人机用户的应用中，也有着相当多的应用，例如康复设备，AR/VR等。目前主流的人体估计方法都是基于卷积神经网络，这也是我们几天要说的HRNet基础。

HRNet提出的动机

HRNet，顾名思义，高分辨率网络(High-Resolution Network)，用于处理高分辨率的图片。通过并行连接从高分辨率到低分辨率的卷积来保持高分辨率表示，其中并行卷积之间存在重复的多尺度融合。

多尺度并行

单从文字上面有点难以理解，可以仔细看下下面这张图。
请添加图片描述
我们可以看到四个浅蓝色的方块。每个方块都代表一个如上所述的多分辨率块，即一个“并行连接从高到低分辨率卷积”的块。多个通道图的并行处理的过程如下所示。黄色通道图代表最高分辨率，而红色小通道图代表最低分辨率。第四个块并行处理 4 个分辨率。