文章目录
创新点
姿态归一化的人体结构应用网络
【对热力图进行旋转操作】
姿态归一化:将多样性的姿态变换到标准姿态附近,标准姿态即直立姿态
全局姿态归一化:整个躯体旋转角度,以躯体直立为准
局部姿态归一化:根据关节进行旋转,以关节直立为准;避免设定大量局部肢体姿态模板去尽可能覆盖各种可能出现的肢体姿态
优点:将多样的人体姿态尽可能变换到一个标准姿态附近,极大的降低人体全局以及局部肢体的自由度,进而降低人体结构模型上的复杂度和相应的参数量消耗。
关键点检测网络
基于FCN
原本用于解决语义分割问题;
主干网络:VGG网络
FCN网络训练的三个阶段:FCN_32s、FCN_16s、FCN_8s。分别代表从1/32、1/16、1/8分辨率的表征中生成最后的1/8分辨率输出的网络结构。
图中黄色块:VGG网络的pooling-3、pooling-4和pooling-5中得到高、中、低分辨率的表征。
FCN_32s中仅使用低分辨率表征进行32倍的转置卷积上采样,仅有LD1一个监督信号。
FCN_16s本文将FCN_32s和FCN_16s融合作为又一个输出,使用多尺度监督,即LD1+LD2+LF1.
FCN_8s本文将FCN_32s、FCN_16s、FCN_8s的输出融合作为最终的输出,多尺度监督,即LD1+LD2+LD3+LF1+LF2。
优点:让网络充分学习不同分辨率特征所需要提供的互补信息
基于姿态归一化的人体结构应用网络
肢体旋转角度计算:直接利用图像中估计出的关节关键点坐标计算旋转角度
【再计算图像的变换矩阵】
改善网络:5层卷积层,对关键点之间的位置关系进行建模。
逆空间变换:对姿态归一化模块中计算出来的变换矩阵进行取逆操作,利用逆变换矩阵对最终得到的热力图按顺序依次进行相应的逆变换。
基于高分辨率表征学习的关键点检测网络
以往分辨率问题
本文提出的高分辨率网络HRNet
- 保持高分辨率表征,而不是从低分辨率高语义表达能力的表征恢复高分辨率
- 提高高分辨率表征的表达能力,在高分辨率表征上进行更多的卷积以提高语义表达能力。
- 融合相同语义层次的多分辨率表征。多分辨率表征经过相同层数的卷积,以达到相同语义层次的表达能力
- 重复多尺度表征融合。多次使用多尺度表征融合,让多分辨率表征多次的信息交互,而不是只在网络的最后阶段进行融合。
- 合理分配计算量和参数量。
三个部分
- Stem部分(指网络开始的几个卷积层,用于对输入图像进行快速下采样)【沿用图像四倍下采样过程】
- 网络主体部分
- 任务头部(指网络主体结构与分类器之间的部分)
网络主体部分
保持高分辨率的方法:
在网络主体过程中不对表征做任何下采样操作,并使用较低的表征通道数。在网络主体中始终保持1/4的分辨率,在高分辨率表征上使用多层卷积用于提高其学习能力,使其具备足够的分类能力,而不只是作为低层特征信息的补充。
多尺度分支并行:
引入低分辨率表征支路,1/4, 1/8, 1/16, 1/32。为了保持分辨率,采用多尺度分支并行的结构。提高低分辨率支路上的表征通道数,分辨率降低1/2则通道数加倍。
有效控制模型参数和计算量,缓解分辨率降低时带来的信息损失,并以此获得高维度表征。
多尺度融合:
在高分辨率网络中引入阶段内和阶段间的表征融合。
在阶段内表征融合中:输入的表征支路数与输出的表征支路数相同,每一个分辨率对应的输出都融合了所有输入不同尺度的表征信息。
阶段间表征融合中:除了已有分辨率支路的表征输出,还会由所有输出的表征融合后生成一个新的低分辨率表征,而不是仅由尺度最近的表征生成低分辨率的表征。
拓展
不同数据集中的评估指标
COCO
-
关键点相似度(Keypoint Similarity,KS):
最低标准ks>=0.5认为一个关键点被正确检测到 -
物体关键点相似度(Object Keypoint Similarity,OKS)
vi代表关键点是否可见,vi>0即可见点可见 -
平均精度 AP(Average Precision)
AP指AP分别在OKS=0.50,0.55,…,0.90,0.95时取得的平均值。