HRNet、HRNet V2网络结构解读

‘Atlas’

已于 2022-05-17 17:00:15 修改

阅读量5.8k

点赞数 4

分类专栏：深度学习论文详解文章标签：深度学习计算机视觉 HRNet

于 2021-08-08 18:00:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41994006/article/details/119512401

版权

论文详解同时被 2 个专栏收录

72 篇文章 15 订阅

订阅专栏

45 篇文章 3 订阅

订阅专栏

文章目录

解决问题
创新点
算法原理
实验结果
- HRNetV1
- HRNet V2
总结

论文：《Deep High-Resolution Representation Learning for Human Pose Estimation》
github地址： https://github.com/HRNet/deep-high-resolution-net.pytorch
HRNet V2论文：《High-Resolution Representations for Labeling Pixels and Regions》
github地址： https://github.com/HRNet

解决问题

现存的方法是通过一个由高到低的网络结构所产生低分辨率特征拟合高分辨率特征。降采样过程产生损失。

创新点

作者通过重复的多尺度融合，使得每个从高到低的分辨率表征一遍又一遍地接收来自其他并行表征的信息，从而产生丰富的高分辨率表征，从而预测关键点热图更加准确。

算法原理

HRNetV1

在这里插入图片描述
HRNet共有四个stage，每个stage相对于前一个stage，扩展一个分支，该分支输出特征降采样2倍，channel扩充2倍。
transition：用于进入下一个stage生成低分辨率特征，同时扩展分支，通过卷积（kernal=3，stride=2）实现；
fuse：用于多尺度分辨率特征融合；stage1不存在；其中，
上采样：通过卷积（kernal=1）将channel对齐，upsampling层最近邻实现上采样；
下采样：通过卷积（kernal=3，stride=2）实现。比如降采样4倍时，通过卷积（kernal=3，stride=2），channel不改变，降采样2倍，再通过（kernal=3，stride=2），channel对齐，实现降采样4倍。
stage1中每个block使用Bottleneck，其余stage使用Basicblock；在这里插入图片描述右图为bottleneck，左图为basicblock.

HRNet V2

应用于分割

相对于HRNet V1
1、修改最邻近为双线性插值上采样；
2、多尺度特征融合，修改add为concat；如下图b所示。
在这里插入图片描述

应用于检测-HRNet V2p

相对于HRNet V1
1、修改最邻近为双线性插值上采样；
2、多尺度特征融合，修改add为concat；
3、通过avgpooling产生多个尺度输出，如上图c所示。

实验结果

HRNetV1

在这里插入图片描述

HRNet V2

应用于分割
在这里插入图片描述

应用于检测

总结

网络全程保持高分辨率，中间多次进行多尺度融合，比较好的保存下原始特征。

关注

4
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
HRNet、HRNet V2网络结构解读

文章目录解决问题创新点算法原理HRNetV1HRNet V2应用于分割应用于检测-HRNet V2p实验结果HRNetV1HRNet V2总结论文：《Deep High-Resolution Representation Learning for Human Pose Estimation》github地址：https://github.com/HRNet/deep-high-resolution-net.pytorchHRNet V2论文：《High-Resolution Representatio
复制链接

扫一扫

专栏目录

博客等级

码龄6年

103
原创

366
点赞

1852
收藏

1万+
粉丝

关注

私信

分类专栏

论文详解 72篇
工程实践 6篇
数据集 1篇
NLP 1篇
3D重建 5篇
通用分割 6篇
实例分割 10篇
数据生成 23篇
跨模态 25篇
虚拟试衣 6篇
图像修复 1篇
工具 1篇
视频生成 7篇
文本识别 1篇
Transformer 8篇
风格迁移 1篇
自监督 1篇
姿态估计 3篇
联邦学习 2篇
姿态迁移 2篇
image translation 1篇
GNN 1篇
深度学习 45篇
机器学习 3篇
Python 6篇
anaconda 1篇
数据结构 1篇
安装 1篇
目标检测 10篇

最新评论

BLIP2-图像文本预训练论文解读
失落的艺术: 这个query embeding和输入图像经过ImageEncoder得到的向量是一个东西吗？还是另外又增加了一个随机向量Query embeding？
BLIP2-图像文本预训练论文解读
巷猫和斑马: 可学习的query embedding就是Q-Former中图像编码器的输入，因为在BLIP2中Image Encoder被冻结了，所以无法通过调整Image Encoder的参数使得学习到的图像特征向量与文本特征向量align，所以使用可学习的Query作为代替，它可以同时考虑图像和文本的特征，以此作为align的桥梁
BLIP2-图像文本预训练论文解读
小喜久: 想问一下，在Q-Former左侧的图像transformer中的可学习query embedding是什么呀
虚拟试衣-DiOr论文解读
m0_59079608: 您好，请问您部署好了吗，可以请教下怎么部署的吗？
BLIP使用教程
DRACO于: 你好，cannot import name BlipProcessor这种是什么原因，单独import transformer是没问题的，也尝试过更新upgrade，已是最新版本

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。