涉及论文
[1]Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
https://www.arxiv.org/pdf/1606.01847.pdf
[2]Compact Bilinear Pooling
https://arxiv.org/pdf/1511.06062.pdf
[3]Bilinear CNN Models for Fine-grained Visual Recognition
https://arxiv.org/pdf/1504.07889.pdf
1 introduction
这里主要涉及三篇文章,首先是做fine-grained的bilinear cnn models[3],但是bilinear cnn会引起参数维度过大,于是作者提出了compact bilinear pooling[2],然后在此基础上做VQA任务[1],并取得了2016年的冠军 http://visualqa.org/roe.html
VQA =Visual Question Answering, 主要任务是给定一幅图片,并提出几个问题,模型负责回答该问题