1.论文
https://arxiv.org/pdf/1904.04514.pdf
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
2.网络结构
(1)此框架图包含4个分支输出,第一个分支始终是高分辨率卷积(就是最上面的分支),然后依次下采样一倍;
(2)从输入层开始,卷积4次,第4次多出1个岔路,然后每个分岔路都和前面所有分支交互。
(3)然后又是每个分支卷积4次,以此类推,直到出现4个分支。
(4)最后一层输出层,每个分支输出都要与前面所有分支交互。
可如下分成4组。
HRNet Head根据不同的任务,有不同的形式,如下。
(1)a,用于human pose estimation,只有来自高分辨率的卷积特征作为输出;
(2)b,用于semantic segmentation and facial landmark detection,先用线性插值上采样到相同分辨率,然后cancate所有分辨率输出;
(2)c,用于object detection,基于b的基础上加上一个FPN结构(通过avgpooling下采样)。
3.特点
HRNet以前的网络都是先下采样,然后上采样,这样会丢失很多细节信息,HRNet的做法是不同分辨率并行,然后所有分支时不时的进行交互(如上框架图,最高分辨的特征始终会和低分辨率交互,尽量保留细节信息)。
-------------------------------------------------------------------------------------------------------------------
待续。。。