©PaperWeekly 原创 · 作者|李凯
学校|清华大学硕士生
研究方向|多模态机器学习、计算机视觉
概要
论文标题:
Deep High-Resolution Representation Learningfor Visual Recognition
论文链接:
https://arxiv.org/abs/1908.07919
代码链接:
https://github.com/HRNet
这是一篇发表在 PAMI(2020)关于计算机视觉任务通用模型(HRNet [1])的文章。该文章指出在计算机视觉领域中不同分辨率对于结果起着至关重要的作用。而目前大部分的 backbone(ResNet [2],DenseNet [3],ResNest [4] 等)将图像的分辨率逐渐变小,这对于一些需要精细信息的视觉任务会产生一定的影响,例如语义分割,目标检测和人体姿态估计等。
本文的主要创新点是在整个模型计算的过程中始终保持着高分辨率,在并行连接高至低分辨率特征图,在交互模块中交换不同分辨率的特征信息。因此所得到的特征图在语义上更丰富,并且在空间上更精确。
HRNet 在很多的计算机视觉任务中表现出很好的结果,包括人体姿势估计,语义分割和目标检测。这说明 HRNet 可以作为解决计算机视觉任务的 backbone。作者在论文中放出的开源的代码目前已经获得 11.4k 的 star。
HRNet模型结构
在文章中指出有不同的从低分辨率恢复高分辨率的结构。(1) 一种从高分辨率学习低分辨率特征图的神经网络(例如 VGGNet [5],ResNet和ResNet变体等)。(2) 一种下采样后上采样恢复高分辨率特征图神经网络,例如 U-Net ,Hourglass 等。
▲ 图1. HRNet的模型结构示意图
这个网路主要包含三个部分:多分辨率并行支路,多分辨率并行支路融合模块和特征图结果输出模块。
多分辨率并行支路。首先将高分辨率卷积支路作为第一步,逐步将高至低分辨率支路逐个添加,形成新的阶段,然后并行连接多分辨率支路。下一级并行支路的分辨率包括前一级的分辨率和一个较低的分辨率。
图 1 所示的网络结构包含 4 个并行流,逻辑上如下图 2 所示。其中, 是第 s