原文链接: https://arxiv.org/abs/1902.09080v1
摘要:
作者提出了通过探索分割结果作为自注意力机制的线索有助于提升识别性能。将语义特征图和卷积特征图合并,为行人识别与分类提供了更多的区分性特征。通过联合学习,作者提出的自注意力机制可以高效的识别行人区域并抑制背景。
文章贡献:
(1)提出了通过探索分割结果作为自注意力机制的线索有助于提升识别性能。
(2)提出了多尺度多任务学习框架,通过多尺度中间网络连接学习行人检测和语义分割,可以融合不同粒度的语义信息到共享特征图中。
(3)实验结果证明,本文的模型的识别性能是同类中的最高,且计算高效。
方法论:
作者的模型是以Faster R-CNN为框架,包含两部分:语义自注意力RPN(SSA-RPN)和语义自注意力R-CNN(SSA-RCNN)。其中SSA-RPN用于产生候选行人区域。SSA-RCNN用于提炼SSA-RPN的候选结果。网络结构:
1. SSA-RPN
为了获得语义特征图,作者加入了两个语义分割分支conv4_3_seg和conv5_3_seg,并将seg分支的特征图和卷积特征图相连ÿ