High-Resoultion Net(HRNet)由微软亚洲研究院和中科大提出,发表在CVPR2019。
模型的主要特点是在整个过程中特征图(Feature Map)始终保持高分辨率,这与之前主流方法思路上有很大的不同。在HRNet之前,2D人体姿态估计算法是采用(Hourglass/CPN/Simple Baseline/MSPN等)将高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率的思路(单次或重复多次),以此过程实现了多尺度特征提取的一个过程。
HRNet在整个过程中保持特征图的高分辨率,但多尺度特征提取是姿态估计模型一定要实现的过程,那么HRNet是如何实现多尺度特征提取的呢?模型是通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络,不同网络实现多尺度融合与特征提取实现的。
上图为模型结构,横向表示模型深度变化,纵向表示特征图尺度变化。第一行为主干网络(特征图为高分辨率),作为第一阶段,并逐渐并行加入分辨率子网络建立更多的阶段(如上图