Exploring Models and Data for Image Question Answering

最新推荐文章于 2022-07-28 09:12:49 发布

这样子的话

最新推荐文章于 2022-07-28 09:12:49 发布

阅读量1k

点赞数

分类专栏： VQA 文章标签： VQA 视觉问答

本文链接：https://blog.csdn.net/lsh894609937/article/details/62041943

版权

VQA 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

这篇文章的主要Contributions:
1.提出一个end-to-end QA模型，这个模型利用visual semantic embedding 连接CNN,RNN.
2.提出一个自动问题生成算法，这个算法可以将描述图像的句子转化为问题
3.基于以上算法生成COCO-QA数据集
COCO-QA数据的Answer都是一个单词，所以可以将基于COCO-QA的VQA当成是一个分类问题。
Models:
Model
文中将图像作为问题的一个单词，并且最先输入到LSTM中，并且将Model命名为VIS+LSTM模型。主要实现过程：
1.利用19层的VGG-Net的最后一层隐藏层作为visual embeddings,并且在训练期间保持CNN不变。
2.在多种不同的word embeddings 模型中进行训练，主要有randomly initialized embedding,dataset-specific skip-gram embedding and general-purpose skip-gram embedding model
3.将image vector 作为sentence question的第一个单词，利用一个linear 或者affine transformation将4096维的image feature vectors转化为300或者500维的向量，与word embeddings的维度相匹配。
4.也可以把图像当作问题的最后一个单词，并且可选择的利用一个reverse LSTM，这个LSTM可以得到相同的内容，但是是以反向操作的。
5.LSTM的输出作为softmax层的输入，预测答案。
COCO-QA的生成过程就无需过多赘述了。
Experimental Resuls
COCO-QA问题类别分布
COCO-QA
文中提出的模型主要有四个：
1.VIS+LSTM
2.2-VIS+BLSTM 将图像特征作为问题的第一个单词和最后一个单词，并且利用双向的LSTM网络，最后将LSTM的输出，输入到softmax中预测答案。
3.IMG+BOW
4.Full 以上三个模型的平均
这里写图片描述

附实现代码：
https://github.com/abhshkdz/neural-vqa?utm_source=tuicool&utm_medium=referral
https://github.com/renmengye/imageqa-public

这样子的话

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Exploring Models and Data for Image Question Answering

这篇文章的主要Contributions: 1.提出一个end-to-end QA模型，这个模型利用visual semantic embedding 连接CNN,RNN. 2.提出一个自动问题生成算法，这个算法可以将描述图像的句子转化为问题 3.基于以上算法生成COCO-QA数据集 COCO-QA数据的Answer都是一个单词，所以可以将基于COCO-QA的VQA当成是一个分类问题
复制链接

扫一扫