Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields论文阅读笔记-3
针对原论文2.2-2.4部分介绍的关键点置信图、部位亲和场、多人分割等内容作一简要笔记
身体部位关键点检测(计算S*j(p))
xj,k代表图中第k个人的第j种部位的标注点,p代表图中的每个像素点,S*j,k(p)由于符合高斯分布,当p接近标注点xj,k时,达到正态曲线的峰值,σ用于控制波峰的延展
对于k个人的S*j,k(p),生成S*j(p)的时候是按照多个高斯分布取max的方法来保留各个S*j,k(p)的峰值。
S*j(p)的结果实际上就是一张图片上身体部位j的部位分布置信图(热点图)
部位亲和场的计算(计算L*c(p))
第k个人的第c种肢体的部位亲和场PAF定义如下,即当像素点p落在第k个人的第c种肢体上时,其值为连接第k个人第c种肢体的两个部位关键点(标注点)xj1,k和xj2,k间的单位向量,否则为0
而对于像素点p是否在第k个人的第c种肢体上,是通过该肢体的长度和宽度两个阈值定义的
L*c(p)的定义如下,nc(p)代表非零L*c,k(p)的个数,实际上是对一个像素点p落在多个人的第c种肢体上的情况取了平均值
利用PAF计算两个部位之间的相关性(之后二部图匹配中各边的权重)
对于在身体部位关键点检测部分找到的多种部位,我们需要将其两两连接起来以构成肢体,该部分利用PAF计算两个部位间连接的可能性,即这两个部位是否可以构成某个人的某种肢体。这里用E代表两个部位的相关性,其值越大代表两个部位越相关。E的计算是通过两个部位关键点之间的单位向量与两个部位之间连线上的所有像素点在指定肢体的部位亲和场中的PAF向量的点积再进行积分得到的。
该式结合上式中的积分上下限u从0变化到1,说明p(u)实际上是dj1和dj2两个部位连线上的所有像素点。
二部图匹配完成部位的连接和多人分割
Z代表所有可能的肢体的集合
D代表身体部位的集合
Zc代表仅限于两种部位之间的可能的肢体(1种肢体)的集合。当所有匹配边的权重和最大时的Zc即为最可能的肢体集合
=1表示j1类肢体的m部位与j2类肢体的n部位可能存在连接,下两个式子保证了二部图匹配时每一类肢体中的一个部位只能在一个肢体中出现
下式将每种肢体最可能的集合相加,便得到了完整的最可能的肢体连接Z