原文:《PAYING MORE ATTENTION TO ATTENTION: IMPROVING THE PERFORMANCE OF CONVOLUTIONAL NEURAL NETWORKS VIA ATTENTION TRANSFER》
目录
动机
在知识蒸馏中,教师网络学习到的注意力图也可以作为一种知识,蒸馏到学生网络中,从而提高学生网络的性能表现。
关于注意力图的生成方式,提出了**基于激活(activation-based)和基于梯度(gradient-based)**的两种注意力图表示方式。
前期知识
注意力机制
空间域(Spatial Domain)
通道域(Channel Domain)
SENet:
- Squeeze:把原来 [ H ∗ W ∗ C ] [H*W*C] [H∗W∗C] 的特征,压缩为 [ 1 ∗ 1 ∗ C ] [1*1*C] [