作者 | Zhi Gao
编辑 | 唐里
本篇文章是AI 科技评论 AAAI 2020 论文系列解读第 01 篇
本文对北京理工大学、阿里文娱摩酷实验室合作的论文《RevisitingBilinear Pooling: A coding Perspective》进行解读,该论文发表在AAAI 2020,本文首先证明了常用的特征融合方法——双线性池化是一种编码-池化的形式。从编码的角度,我们提出了分解的双线性编码来融合特征。与原始的双线性池化相比,我们的方法可以生成更加紧致和判别的表示。
一、研究动机
在各种计算机视觉及人工智能任务中,特征融合是一个不可或缺的模块。例如,在图1(a) 的人工智能解说球赛的应用中,当观众提问“图中穿黄色球衣的球员是谁?”时,模型需要将图像特征和文本特征融合成一个全局表示,分类器对全局表示进行分类,得到答案。对于图1(b) 中的细粒度鸟类识别应用,通常的做法是首先对图像提取局部特征,之后将局部特征融合成全局表示并进行分类。因此,特征融合及其生成的全局表示直接影响了模型在计算机视觉和人工智能任务上的性能。
图1 (a) 人工智能解说球赛
图1 (b) 细粒度鸟类识别
常见的特征融合方法包括词袋模型 (BoW),Vector of Locally Aggregated Descriptor (VLAD) 模型和Fisher Vector (FV) 模型等。最近的研究