- 由于自己研究方向为基于高阶的图像分类,故在这里对相关论文做一个简单的划分和总结。
- 按照计算高阶的层,位于卷积神经网络的位置划分,可以分为:
- 网络末端
- 网络中部
2022-05-24 update
网络末端
B-CNN(ICCV 2015)
- 这个直接看论文中的图,就很容易看懂原理,高阶主要体现在bilinear vector的获得,计算的feature map的二阶操作。
MPN-COV(Matrix Power Normalization covariance pooling)(ICCV 2017)
- 这篇工作主要是着眼于大规模的数据集情况下,使用高阶信息。如果只看方法图的话,也比较容易理解,但是因为要考虑到End-To-End,所以高阶特征的反向传播,需要自己推导,因为这个深度学习框架目前没有实现。
- 后续工作:Fast-MPN(CVPR 2018) 通过 iterative matrix square root normalization method 实现在GPU上快速地计算SVD或者EIG.
G 2 ^2 2DeNet
- 这篇主要工作是对feature map做高斯特征建模,说着比较简单,但是真要实现起来,也是面临和上面一样的问题,要想能End-To-End训练,必须要解决反向传播的问题,这个问题都可以追溯到DeepO 2 _2 2P,这篇工作可是说是计算矩阵的SVD或者EIG在神经网络的开山之作,里面公式较多,感兴趣的可以去看看。
- 后续工作: Global Gated Mixture of Second-order Pooling for Improving Deep Convolutional Neural Networks (NeurIPS 2018) 采用多个高斯模型来对特征进行建模。
网络中部
SORT: Second-Order Response Transform for Visual Recognition(ICCV 2017)
- 这篇论文工作,看方法图,比较简单。
Global Second-order Pooling Convolutional Networks(CVPR 2019)
- 这篇工作相当于将高阶和注意力机制在网络中部地方结合起来,即简单又有效。
最近顶会看高阶
ICCV 2019
Mixed High-Order Attention Network for Person Re-Identification
- 该篇工作主要亮点是结合注意力机制和高阶两者
- 具体高阶用法:
Second-order Non-local Attention Networks for Person Re-identification
- 该工作主要结合Non-local attention和second order做re-identification,可以更加有效地对long-range relationships建模
- 主要方法框架为:
CVPR 2019
Second-order Attention Network for Single Image Super-Resolution
- 如果仔细阅读论文,就会发现所有的操作是无比的熟悉😅
- 该工作主要是将B-CNN,SENet和Fast-MPN-COV结合起来应用在生成高清图像上
- 主要方法框架为:
当然,还有很多工作,我这里并没有给出,有些论文也有相关源码,我会在后续中给出,不过GitHub上也都能搜到。有啥不足和改进之处,还请指出!