这篇文章做的是VQA,是【多模态论文阅读】Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering这篇文章的扩展工作,也就是说将介绍的MFB的结构进行了级联扩展,从而进行了高阶多模态双线性池化。
回顾MFB的结构如下:
模型结构非常简单,就是级联了【多模态论文阅读】Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering这篇文章中介绍的MFB块。
级联的方式也非常简单: