动机:
依旧是一篇基于attention 的论文,不得不说现在market数据集上top10基本被attention霸榜了。这篇文章的出发点和SONA很类似,作者分析目前attention的操作都太过于粗糙,例如 spatial attention 和 channel attention ,需要高阶的操作以获取更多local之间的关系。
创新:
乍一看first-order和channel attention基本一致,果然,作者在后文有提到。没有细看矩阵的推导过程,看图觉得作者应该是在第N个order采用了N个1×1的卷积核,之后得到的N个等尺寸的feature再相互乘,得到不同阶的mask。
因为作者已开源,看了下源码,确实如此,附上部分源码注释。
在得到不同阶的feature后,作者又设计了一个对抗损失adversary coefficient,这设计很巧妙:
- 特征由FC层输出后,期望各个feature之间的差异性缩小
- 然而作者设计的Mixed High-Order Attention Network却期望不同阶的attention模块可以学习到更有区分性的的特征,即不同阶学到的特征不同。