主要做了四个方面的改进:
1、为VQA提出了一个co-attention mechanism,能够联合问题主导的visual attention和图片主导的question attention。用两种策略实现这个mechanism,分别为parallel co-attention 和 alternating co-attention。
2、提出了一个层架构来represent question。并且最终通过3个不同的levels组建image-question co-attended maps.分别为:word level , phrase level和question level。这些co-attended特征是递归的从word level到question level,从而获得最终的answer prediction。
3、在phrase level,提出了一个新的卷积池化策略(convolution-pooling strategy)来 选择合适的传送给question level的phrase sizes.
4、最后,在两个大的数据集合上对模型进行了验证,VQA数据集和COCO-QA数据集。还使用了ablation studies(消融研究)来量化不同组件在模型中的作用。
方法:
1. Notation
给定一个有T个word的question,它的表示形式为。。。,qt是第t个word的feature vector。q(t,w),q(t,p),q(t,s)分别代表在位置t处的word embeding, phrase embeding和question embeding。image feature表示为V={...},其中vn表示在位置n处的图像特征。每一层中的图像和问题的co-attention features表示为....。各个模型/层中的权重表示为W,对应不同的权重可以有不同的上标或下标。在下面的方程中,为了避免符号的混杂,忽略偏执。
2. Question Hierarchy(问题层面)