Awesome Fine-Grained Image Analysis – Papers, Codes and Datasets
bilinear pooling主要用于特征融合,对于从同一个样本提取出来的特征x和特征y,通过bilinear pooling得到两个特征融合后的向量,进而用来分类。
如果特征x和特征y来自两个特征提取器,则被称为多模双线性池化(MBP,Multimodal Bilinear Pooling);
如果特征x=特征y,则被称为同源双线性池化(HBP,Homogeneous Bilinear Pooling)或者二阶池化(Second-order Pooling)。
原始的Bilinear Pooling存在融合后的特征维数过高的问题,融合后的特征维数=特征x和特征y的维数之积。原作者尝试了PCA降维,但效果并不理想。
(1)双线性池化及其变体
- Bilinear CNN Models for Fine-grained Visual Recognition(2015)
传统分类方法采用求和或者平均,只用了一阶统计信息。而bilinear pooling 通过求外积得到二阶统计信息,意在当一阶信息相同的时候利用二阶信息的不同来做分类。
如使用VGG Conv5_3 输出特征图维度为12x12x512(特征图大小12x12,512个通道),则特征图共有12x12=144个位置,每个位置的特征维度为1x512,将两个特征图同一位置的512x1与1x512的矩阵相乘,得到该位置特征向量维度为512x512。文章中使用所有位置特征向量之和对其进行池化,故将144个512x512的特征向量相加,最终得到512x512的双线性特征。 该过程可以使用矩阵乘法实现,将特征图变形为144x512的特征矩阵,之后其转置与其相乘,得到512x512的双线性特征向量。
-
CBP: Compact Bilinear Pooling(CVPR2016 )紧凑双线性
主要使用 Random Maclaurin 和Tensor Sketch两种多项式核函数对feature进行降维,降低3个数量级,没有明显的性能损失。
-
MCBP: Multimodal Compact Bilinear Pooling
-
LRBP:Low-rank Bilinear Pooling(CVPR2017)
-
Grassmann Pooling(ECCV 2018)
-
iSQRT-COV(CVPR2018):iterative matrix square root normalization of covariance pooling协方差池化的迭代矩阵平方根标准化
-
DBTNet(NIPS2019)
(2)从bilinear pooling到billinear model
《Factorized bilinear models for image recognition》是ICCV2017的文章,虽然本文也是针对HBP的研究,但成功地把bilinear model与bilinear pooling联系起来。
- MLB:Multimodal Low-rank Bilinear Pooling
- MFB:Multi-modal factorized bilinear pooling