- Abstract
双线性模型包括了两个特征提取网络,图像的特征表达随后通过对这两个特征提取网络的输出做外积然后池化而得到。该方法能更好地提取对细粒度分类有用的local pairwise特征。
-
Introduction
第一段:细粒度识别任务的挑战。
第二段:常用的方法包括检测目标的不同部位;缺点:标注比收集image更难/手工选取的part不是optimal的。
第三段:另一种方法:使用robust image representation,如VLAD、Fisher vector等。尽管这些方法不需要part-based label,但是精度很低。此外,这些方法还没有实现end-2-end训练。
第四段:我们提出的方法能很好的解决以上问题,模型包括了两个feature extractors,随后对这两个输出的feature maps的每一个location使用outer product/pooled而获得image descriptor。
Outer product可以caputre不同channel间的pairwise correlations,对model part-feature interaction是有帮助的。例如:一个extractor用于提取part,而另一个用于提取local feature,我们的方法能很好的将其两者结合。第五段:实验。
- Bilinear models for image classification