Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields论文阅读笔记-2
针对原论文2.1Simultaneous Detection and Association部分介绍的网络结构部分作一简要笔记
网络结构如下图所示
- 输入原始彩色人体图片
- 原始图片经过VGG-19网络的前10层(微调)进行处理,得到特征图F
- 网络由连续的多个阶段组成,每个阶段都有两个可反复迭代的CNN分支构成,两个CNN分支同时进行。
- 第一个分支网络ρ(上方米黄色)用来预测Part Confidence Map(CPM,部位置信图),输出一个集合S =(S1 , S2 , …, Sn) ,n表示人身上的第n个部位。S用来完成对身体部位的预测
- 第二个分支网络φ(下方浅蓝色)用来预测part affiity fields(PAF,部位亲和场),输出一个集合L= (L1 , L2 , …, Ln ), n表示人身体的第n个肢体。L结合S结合二部图匹配,用来完成对肢体的预测
- 在第一个阶段,两个分支CNN均接受特征图F作为输入,将S1=ρ1(F)和L1=φ1(F)作为本阶段的输出。
- 在第t(t>2)个阶段,两个分支均接受特征图F和前一阶段两个网络的输出St-1,Lt-1作为输入,并输出相应的St和Lt。
- 每一阶段每个分支网络都有其损失函数,损失函数采用L2损失函数加权的表示。权重W(p)的作用:是在某些情况下,数据集中可能存在对部位的标注不完全的情况,此时的S*j(p)和L*c(p)的值为0,从而导致损失函数的值特别大,在这种情况下,令W(p)=0,从而避免这种情况的发生。
- 而网络的总体损失函数被定义为各阶段每个分支网络损失函数的和。网络的目标是不断降低这个损失函数的值
- 经过多个阶段的迭代,输出结果St和Lt相比初始结果S1,L1会有明显的优化
- 为了计算损失函数,需要得到S*j(p)和L*c(p),即身体部位和部位亲和场PAF的GroundTruth,这也是本篇论文之后重点介绍的部分