本文简要总结一下attention机制在图像分类任务中的应用。attention作为一种机制,有其认知神经或者生物学原理: 注意力的认知神经机制是什么?
如何从生物学的角度来定义注意力?
在计算机视觉领域,注意力机制有各种不同形式的实现,可以大致分为soft attention和hard attention[1]。Soft attention的典型例子是stn[3],Residual Attention Network[5]和Two-level Attention[2],这种注意力机制是可微的,可以通过反向传播训练。而Hard attention 需要预测关注的区域,通常使用强化学习来训练,例子见[1]中列举的参考文献。
[2]中集成了三种类型的attention: 提供候选patch的bottom-up, 依据object筛选相关patch的object-level top-down和定位区分性部件的part-level top-down。
[5]这篇文章写得很不错,值得细读。提出了一种Residual attention network,是attention module的堆叠。在每个module中均使用bottom-up top-down结构(参考Stacked hourglass networks[7])。The bottom-up top-down structure mimics the fast feedforward and feedback attention process。利用残差机制使得网络深度可以进一步扩展。网络结构如下图: