一.介绍
大多数方法都是用RNN提取文本特征,CNN提取图像特征后拼接,通过分类器预测答案。在此基础上,有些方法会加入视觉注意力机制。在图像注释任务上,只用词袋模型和CNN的方法虽然取得很好的效果,但在VQA上缺表现不如LSTM的方法。因此,本文根据该模型做出改进提出iBOWIMG.
二.方法
使用词袋模型提取问题的文本特征;使用GooLeNet提取视觉特征。问题先转换为独热向量,再通过词嵌入转换为特征。
三. 实验
分析:
- 文本特征对答案的贡献分数远大于图像特征
- 分析问题中每个单词的重要性
- 用 Class Activation Mapping (CAM) 获取图像中最显著的区域