这篇文章的主要Contributions:
1.提出一个end-to-end QA模型,这个模型利用visual semantic embedding 连接CNN,RNN.
2.提出一个自动问题生成算法,这个算法可以将描述图像的句子转化为问题
3.基于以上算法生成COCO-QA数据集
COCO-QA数据的Answer都是一个单词,所以可以将基于COCO-QA的VQA当成是一个分类问题。
Models:
文中将图像作为问题的一个单词,并且最先输入到LSTM中,并且将Model命名为VIS+LSTM模型。主要实现过程:
1.利用19层的VGG-Net的最后一层隐藏层作为visual embeddings,并且在训练期间保持CNN不变。
2.在多种不同的word embeddings 模型中进行训练,主要有randomly initialized embedding,dataset-specific skip-gram embedding and general-purpose skip-gram embedding model
3.将image vector 作为sentence question的第一个单词,利用一个linear 或者affine transformation将4096维的image feature vectors转化为300或者500维的向量,与word embeddings的维度相匹配。
4.也可以把图像当作问题的最后一个单词,并且可选择的利用一个reverse LSTM,这个LSTM可以得到相同的内容,但是是以反向操作的。
5.LSTM的输出作为softmax层的输入,预测答案。
COCO-QA的生成过程就无需过多赘述了。
Experimental Resuls
COCO-QA问题类别分布
文中提出的模型主要有四个:
1.VIS+LSTM
2.2-VIS+BLSTM 将图像特征作为问题的第一个单词和最后一个单词,并且利用双向的LSTM网络,最后将LSTM的输出,输入到softmax中预测答案。
3.IMG+BOW
4.Full 以上三个模型的平均
附实现代码:
https://github.com/abhshkdz/neural-vqa?utm_source=tuicool&utm_medium=referral
https://github.com/renmengye/imageqa-public
Exploring Models and Data for Image Question Answering
最新推荐文章于 2022-07-28 09:12:49 发布