TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响

©PaperWeekly 原创 · 作者|李凯

学校|清华大学硕士生

研究方向|多模态机器学习、计算机视觉

 

概要

论文标题:

Deep High-Resolution Representation Learningfor Visual Recognition

论文链接:

https://arxiv.org/abs/1908.07919

代码链接:

https://github.com/HRNet

这是一篇发表在 PAMI(2020)关于计算机视觉任务通用模型(HRNet [1])的文章。该文章指出在计算机视觉领域中不同分辨率对于结果起着至关重要的作用。而目前大部分的 backbone(ResNet [2],DenseNet [3],ResNest [4] 等)将图像的分辨率逐渐变小,这对于一些需要精细信息的视觉任务会产生一定的影响,例如语义分割,目标检测和人体姿态估计等。

本文的主要创新点是在整个模型计算的过程中始终保持着高分辨率,在并行连接高至低分辨率特征图,在交互模块中交换不同分辨率的特征信息。因此所得到的特征图在语义上更丰富,并且在空间上更精确。

HRNet 在很多的计算机视觉任务中表现出很好的结果,包括人体姿势估计,语义分割和目标检测。这说明 HRNet 可以作为解决计算机视觉任务的 backbone。作者在论文中放出的开源的代码目前已经获得 11.4k 的 star。

 

HRNet模型结构

在文章中指出有不同的从低分辨率恢复高分辨率的结构。(1) 一种从高分辨率学习低分辨率特征图的神经网络(例如 VGGNet [5],ResNet和ResNet变体等)。(2) 一种下采样后上采样恢复高分辨率特征图神经网络,例如 U-Net ,Hourglass 等。

▲ 图1. HRNet的模型结构示意图

这个网路主要包含三个部分:多分辨率并行支路,多分辨率并行支路融合模块和特征图结果输出模块。

多分辨率并行支路。首先将高分辨率卷积支路作为第一步,逐步将高至低分辨率支路逐个添加,形成新的阶段,然后并行连接多分辨率支路。下一级并行支路的分辨率包括前一级的分辨率和一个较低的分辨率。

图 1 所示的网络结构包含 4 个并行流,逻辑上如下图 2 所示。其中, 是第 s

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值