Exploring Models and Data for Image Question Answering

  这篇文章的主要Contributions:
  1.提出一个end-to-end QA模型,这个模型利用visual semantic embedding 连接CNN,RNN.
  2.提出一个自动问题生成算法,这个算法可以将描述图像的句子转化为问题
  3.基于以上算法生成COCO-QA数据集
   COCO-QA数据的Answer都是一个单词,所以可以将基于COCO-QA的VQA当成是一个分类问题。
Models:
Model
 文中将图像作为问题的一个单词,并且最先输入到LSTM中,并且将Model命名为VIS+LSTM模型。主要实现过程:
 1.利用19层的VGG-Net的最后一层隐藏层作为visual embeddings,并且在训练期间保持CNN不变。
 2.在多种不同的word embeddings 模型中进行训练,主要有randomly initialized embedding,dataset-specific skip-gram embedding and general-purpose skip-gram embedding model
 3.将image vector 作为sentence question的第一个单词,利用一个linear 或者affine transformation将4096维的image feature vectors转化为300或者500维的向量,与word embeddings的维度相匹配。
 4.也可以把图像当作问题的最后一个单词,并且可选择的利用一个reverse LSTM,这个LSTM可以得到相同的内容,但是是以反向操作的。
 5.LSTM的输出作为softmax层的输入,预测答案。
 COCO-QA的生成过程就无需过多赘述了。
Experimental Resuls
 COCO-QA问题类别分布
COCO-QA
 文中提出的模型主要有四个:
 1.VIS+LSTM
 2.2-VIS+BLSTM 将图像特征作为问题的第一个单词和最后一个单词,并且利用双向的LSTM网络,最后将LSTM的输出,输入到softmax中预测答案。
 3.IMG+BOW
 4.Full 以上三个模型的平均
这里写图片描述
这里写图片描述
 附实现代码:
https://github.com/abhshkdz/neural-vqa?utm_source=tuicool&utm_medium=referral
https://github.com/renmengye/imageqa-public

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值