一、概述
这篇文章做的是VQA,是对【多模态论文阅读】HADAMARD PRODUCT FOR LOW-RANK BILINEAR POOLING这篇文章中所讲述的多模态低秩双线性池化MLB的扩展。
在MLB的论文中,已经讲过可以通过添加attention来实现自然语言query对视觉区域进行attention的做法,具体可以参考【多模态论文阅读】HADAMARD PRODUCT FOR LOW-RANK BILINEAR POOLING。
这篇论文最大的创新点在于:提出做attention的时候,让每一对 natural language word - visual region都进行attention,而attention的方法是基于MLB池化操作之后进行的。
二、Bilinear Attention Networks
我们为两个多通道输入推广了一个双线性模型,X ∈ R N × ρ R^{N×ρ} R