几篇人体关键点检测的论文
一、Mask R-CNN
Mask R-CNN
Mask R-CNN同时进行目标检测和实例分割,在Faster-RCNN框架基础上增加mask分支,多任务损失为:
L=Lcls+Lbox+Lmask L = L c l s + L b o x + L m a s k
对于每个RoI,mask分支有 Km2 K m 2 维的输出,表示K个分辨率为 m×m m × m 的二值mask,对应K个类别。使用per-pixel sigmoid生成二值图,定义 Lmask L m a s k 为平均二值交叉熵损失。对于具有真值标签k的RoI, Lmask L m a s k 仅对第k个mask定义,其他的mask对损失无贡献。
分类分支预测类别标记,使用这个标记选择输出的mask。这不同于FCN,使用的是per-pixel softmax 交叉熵损失,不同类间的mask有竞争。
Mask表示
Mask是输入目标的空间布局,而类别标记和box预测是将卷积特征图通过fc层折叠到短向量,而提取mask的空间结构需要对卷积特征图进行点到点的对应。论文使用FCN预测 m×m