A2-Nets: Double Attention Networks(NIPS 2018)
文章
论文的名字很好,反映了本文的核心想法:首先使用second-order attention pooling将整幅图的所有关键的特征搜集到了一个集合里,然后用另一种attention机制将这些特征分别图像的每个location。
从上图看到,模型先会计算出一堆global descriptors,然后每个位置会根据自己本身的特征来计算对每个global descriptor的权重,从而能对自己的特征是一个补充,比如图上的红框处是一个baseball,所以它对baseball的权重就小,对其他的权重就大一些。然后又从上图(b)中又可以看出,得到了第二步的所有位置的attention vectors之后,组成的矩阵与global descriptors相乘便恢复到最开始的大小,其实输入输出就很卷积很像。写成数学形式就是下面这样,其中i代表location:
首先来看看第一步,Feature Gathering。这步中使用了Bilinear CNN