cXu, D., Ouyang, W., Alameda-Pineda, X., Ricci, E., Wang, X., & Sebe, N. (2018). Learning deep structured multi-scale features using attention-gated crfs for contour prediction. arXiv preprint arXiv:1801.00524.
原文链接
原文代码
摘要
- 一个SOTA的模型在多尺度特征提取和融合方面优于过往模型;不同与既往模型直接利用网络每层输出特征图作为多尺度特征,此模型采用分层次的深层网络产生更加丰富与互补的特征表达;其次,利用注意力门限-条件随机场Attention-Gated Conditional Random Fields (AG-CRFs)进行模型融合。
- SOTA结果在数据集BSDS500 and NYUDv2上。
1. 介绍
此工作motivation在于这样一个问题:
is it worth modeling and exploiting complex relationships between multiple scales of a deep representation for contour detection?
简言之就是探究对不同尺度特征图进行更为复杂的建模实现融合是否对于轮廓提取很重要?
本文作者探究得到的结果是肯定的。
作者受当时图神经网络的启发,加入了attention机制,提出了Attention-guided Multi-scale Hierarchical deepNet (AMH-Net) 网络能够更好的进行特征提取,并利用 AG-CRF进行特征融合增强特征表现力。
2. 模型
2.1 问题定义与符号说明
- F = { f s } s = 1 S F = {\{f_{s}\}_{s=1}^S} F={ fs}s=1S表示S个尺度特征集合
- f s = { f s i } i = 1 N f_{s} = {\{f_{s}^i\}_{i=1}^N} fs={ fsi}i=1N表示在像素 i i i处的向量集合,其中 N N N表示像素总数量
- h s = { h s i } i = 1 N h_{s} = {\{h_{s}^i\}_{i=1}^N} hs={ hsi}i=1N表示利用 f s f_{s} fs学习到的用于多尺度特征融合的下一级特征图
因为上一尺度对应像素点的信息不一定对映与下一尺度,因为设置门(gate)的概念来刻画这种对应关系,限制信息的流动。
- g s e , s r i ∈ { 0 , 1 } {g_{s_{e},s_{r}}^i \in \{0,1\}}