HRNet----《Deep High-Resolution Representation Learning for Visual Recognition》阅读心得

杨黑猴

于 2024-07-13 15:46:31 发布

阅读量909

点赞数 30

文章标签：论文阅读神经网络论文笔记计算机视觉

本文链接：https://blog.csdn.net/snowcrow134/article/details/140399811

版权

HRNet----《Deep High-Resolution Representation Learning for Visual Recognition》阅读笔记

前段时间读了王井东老师的HRNet论文，颇有收获，遂有此文。

一.论文解读

1.整体框架

首先是HRNet的创作思路：在HRNet出现之前，卷积神经网络已经在很多视觉识别任务上都取得了不错的成绩，比如图像分类，语义分割，姿态估计等等。但是对于一些视觉任务，这些视觉任务对位置信息比较敏感，因此也就需要更多的高分辨率表示。我们将它们称为位置敏感视觉任务，现有的一些卷积神经网络无法满足这些任务的需要，因为这些卷积神经网络没有很好的利用高分辨率表示。在上述提到的任务中，语义分割，物体检测，人体姿态估计都属于位置敏感视觉任务。
在这里插入图片描述
图1 一些视觉识别任务

      HRNet之前的著名卷积网络，比如UNet，SegNet，DeconvNet，Hourglass等等，对于高分辨率的利用都不足，因为他们大多选择使用高分辨率信息去辅助低分辨率生成新的高分辨率表示，在这个编码解码的过程中，会不可避免的丢失很多位置信息，这些位置信息即便再由高分辨率辅助生成，也无法全部找回，因此说这些网络结构不佳。最早的卷积神经网络将高分辨率与低分辨率直接串联，直接编码解码，因此后来有人想到并联高分辨率到低分辨率，比如UNet。尽管如此，由于最后的输出仍是由低分辨率上采样得到的，因此这种网络结构对于高分辨率的利用仍然不足。
在这里插入图片描述
                                                             图2 最早的串联网络

                                                             图3 之后的串联网络
      在这种情况下，HRNet横空出世并且大放异彩，HRNet针对之前两种网络的不足之处加以改进，不仅并联地连接各个分辨率，更通过重复融合各个分辨率之间的信息，极大地增强了对于各个分辨率信息的利用率。
在这里插入图片描述

                                                             图4 HRNet网络
      HRNet从一个高分辨率的卷积流作为第一阶段开始，逐步增加高到低分辨率的流，形成新的阶段，并将多分辨率的流并行连接。因此，后一阶段的并行流的分辨率由前一阶段的分辨率和一个额外的较低的分辨率组成。首先采用高分辨率的子网络作为第一阶段；然后逐渐添加高分辨率到低分辨率的子网络，得到多个阶段的输出；最后，并行的连接多分辨率子网络的输出. 其进行了多次多尺度融合。因此，使得每一个高分辨率到低分辨率的特征图表示，都可以一次又一次地从其它并行表示分支接收信息，从而得到信息更丰富的高分辨率表示。
      综上所述，HRNet网络的架构主要有以下优势：
1.并联连接高到低的分辨率而不是串联
2.在整个过程中都保持高分辨率而不是由低分辨率恢复高分辨率
3.通过各个分辨率之间重复的信息交换增强了各个分辨率的表示
因此HRNet可以学习到很强的具有位置敏感性的高分辨率信息表示。
在这里插入图片描述
                                                             图5 HRNet网络整体架构

2.具体模块介绍

交叉分辨率融合

重复融合各个分辨率信息的操作是HRNet的关键操作，称为交叉分辨率融合，它分为三种情形：一种是由低分辨率到高分辨率，这种情况下，直接使用1x1的卷积核改变通道数，再通过双线性插值改变图像尺寸，第二种是由高到低，这种要逐步地下采样，通过步长为2的3x3卷积核改变尺寸，第三种是平级之间的，例如高到高或者低到低，这种不做任何操作，直接恒等映射。
在这里插入图片描述
图6 交叉融合模块
值得一提的是，尽管论文里写的从高到低逐步下采样时每次通道数会逐步倍增，例如16–>32–>64,但在代码里实现的时候，其实是16–>16–>64.

后处理模块（head）

HRNet的输出是四个不同分辨率的表示，无法直接利用，需要再添加后处理模块进行处理。例如语义分割任务，就需要首先将不同分辨率的表示都上采样至最高分辨率的尺寸，再沿通道方向concat四个表示，然后再进行反卷积得到最后的输出图。
在这里插入图片描述图7 不同任务使用的不同head
从左到右依次为：姿态估计，语义分割，目标检测

3.实验结果

这里主要说明语义分割任务的结果：
原文中给出了几种具有代表性的方法在cityscapes val集合上的参数、计算复杂度和评价指标mIoU的比较。(1) HRNetV2-W40(40表示高分辨率卷积宽度)，模型大小与DeepLabv3+相似，计算复杂度更低，但是性能更好，平均交并比可以达到80.2%:比UNet++增益4:7&，比DeepLabv3+增益1.7%，比PSPNet、DeepLabv3+增益约0.5%。(2) HRNetV2-W48的模型大小与PSPNet相似，计算复杂度远低于PSPNet，但取得了非常显著的改进:平均价并比可以达到81.1%,比UNet++提高5.6%，比DeepLabv3提高2.6%，比PSPNet、DeepLabv3+提高约1.4%。
在这里插入图片描述
图8 实验结果

4.创新之处

本文提出了一个用于视觉识别问题的高分辨率网络。与现有的低分辨率分类网络和高分辨率表示学习网络有三个创新之处:(1)将高分辨率和低分辨率卷积并行连接，而不是串联连接;(2)在整个过程中保持高分辨率，而不是从低分辨率恢复高分辨率;(3)重复融合多分辨率表示，呈现丰富的高分辨率表示，具有较强的位置敏感性。在广泛的视觉识别问题上的优异结果表明，HRNet是计算机视觉问题的强大支柱。该研究还鼓励更多的研究工作，直接为特定的视觉问题设计网络架构，而不是扩展，修复低分辨率网络(例如，ResNet或VGGNet)。