在一篇讲解S3D的文章中,文章作者提到论文“在每个3x1x1卷积后加入了Self-attention模块”
Self-attention公式如下
公式代表的意思是
“只是个普通的时空attention模块,将feature map中所有channels进行平均池化,然后进行线性映射和非线性激活,来产生时空attention map,最后权值叠加回去原feature map”
其中,X表示输入attention模块的feature map
pool(X)表示将feature map中所有channels进行平均池化
Wpool(X) + b表示对池化结果使用linear层,即进行线性映射
σ(Wpool(X) + b)表示使用ReLU等层进行非线性激活,最后得到时空attention map
σ(Wpool(X) + b)⊙X表示将attention模块输出的额权值叠加(element-wise multiply)回原feature map