其他部分翻译参考博客:https://blog.csdn.net/weixin_37993251/article/details/88043650
主要方法介绍:
3、APPREOACH
人体姿态估计(Human pose estimation)又称关键点检测(keypoint detection),其目的是检测K个关键点或部件的位置(如弯头、
手腕等)从大小为W×H×3的图像I中。最先进的方法将这个问题转化为估计K个大小为W‘×H’的热图,{H1,H2,…,Hk},其中每个热图Hk表示第k个关键点的位置置信度。
我们遵循广泛适用的pipeline[40, 72, 11]使用卷积网络预测human keypoint。
Sequential multi-resolution subnetworks
作者说明现有的网络是顺序串联的high-to-low network,即从原始图像高分辨率到低分辨率(高层特征)是分辨率连续降低的。
Parallel multi-resolution subnetworks
作者提出用并联的网络,在不同路由间进行特征融合。
Repeated multi-scale fusion
在做重复多尺度特征融合阶段,作者引入了exchange units(交换单元)策略,即在并联的子网络间,每个子网络还重复的接受额外的信息从其他的并行网络中。
交换单元由上采样upsamping 或者下采样downsampling构成。
Heatmap estimation
我们仅从最后一个交换单元输出的高分辨率表示返回热图,这在经验上运行得很好。损失函数定义为均方误差,用于比较预测的热图(predicted heatmaps)和真实热图(groundtruth heatmpas)。真实热图是采用二维高斯分布,以每个关键点的真实位置为中心,标准差为1像素生成的。
Network instantiation
根据ResNet的设计规则,将深度分布到每个阶段,将通道数分布到每个分辨率,实例化了关键点热图估计网络。
主干网络包含四个阶段有4个并行子网络,其对应的分辨率减半,但相应的通道数增倍,第一个阶段包含4个残差单元,每个单元与ResNet-50相同,由一个宽度为64的瓶颈构成,然后进行一个3×3的卷积,将feature map的宽度减小到C。第二、三、四阶段分别包含1、4、3个交换块。一个交换块包含4个残差单元,其中每个单元在每个分辨率中包含两个3×3的卷积***,1个交换单元跨分辨率。综上所述,共有8个交换单元*,即,进行了8(4*2)次多尺度融合。
试验中的网络,HRNet-W32和HRNet-W48,其中32和48分别代表高分辨率子网在最后三个阶段的宽度(C)。其他三个并行子网的宽度为64、128、256为HRNet-W32, 96、192、384为HRNet-W48。
Training
我们将人体检测盒的高宽比扩展到固定的长宽比:高:宽= 4:3,然后从图像中裁剪出盒子,调整为固定的大小,256×192或384×288。
数据增强策略: random rotation([-45,45])、random scale([0:65; 1:35])、flipping、 Following [68], half body data
augmentation is also involved。
其他参数参照论文,没什么可介绍的。
Testing
将人检测出来,再裁剪出来,送入关键点检测网络中
论文中的其他实验不在添加,论文中数据很明了。