双线性池化_新角度看双线性池化，冗余、突发性问题本质源于哪里？| AAAI系列解读 01...

最新推荐文章于 2023-12-02 20:03:50 发布

weixin_39725873

最新推荐文章于 2023-12-02 20:03:50 发布

阅读量292

点赞数

文章标签：双线性池化

本文链接：https://blog.csdn.net/weixin_39725873/article/details/111483142

版权

本文探讨双线性池化在计算机视觉任务中的作用，指出其冗余和突发性问题。通过证明双线性池化是基于相似性的编码-池化框架，作者提出分解的双线性编码方法，以减少信息冗余，提高全局表示的判别力。实验证明，这种方法在图像分类和视觉问答任务上表现优越。

摘要由CSDN通过智能技术生成

作者 | Zhi Gao

编辑 | 唐里

本篇文章是AI 科技评论 AAAI 2020 论文系列解读第 01 篇

本文对北京理工大学、阿里文娱摩酷实验室合作的论文《RevisitingBilinear Pooling: A coding Perspective》进行解读，该论文发表在AAAI 2020，本文首先证明了常用的特征融合方法——双线性池化是一种编码-池化的形式。从编码的角度，我们提出了分解的双线性编码来融合特征。与原始的双线性池化相比，我们的方法可以生成更加紧致和判别的表示。

一、研究动机

在各种计算机视觉及人工智能任务中，特征融合是一个不可或缺的模块。例如，在图1(a) 的人工智能解说球赛的应用中，当观众提问“图中穿黄色球衣的球员是谁？”时，模型需要将图像特征和文本特征融合成一个全局表示，分类器对全局表示进行分类，得到答案。对于图1(b) 中的细粒度鸟类识别应用，通常的做法是首先对图像提取局部特征，之后将局部特征融合成全局表示并进行分类。因此，特征融合及其生成的全局表示直接影响了模型在计算机视觉和人工智能任务上的性能。

图1 (a) 人工智能解说球赛

图1 (b) 细粒度鸟类识别

常见的特征融合方法包括词袋模型 (BoW)，Vector of Locally Aggregated Descriptor (VLAD) 模型和Fisher Vector (FV) 模型等。最近的研究