VQA视觉问答系统

最新推荐文章于 2024-08-25 09:34:27 发布

唐果然

最新推荐文章于 2024-08-25 09:34:27 发布

阅读量1.1k

点赞数 25

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_61636632/article/details/140135577

版权

这是一个典型的多模态问题，融合了CV与NLP的技术，计算机需要同时学会理解图像和文字。

Joint embedding

首先，图像和问题分别由CNN和RNN进行第一次编码得到各自的特征，随后共同输入到另一个编码器中得到joint embedding，最后通过解码器输出答案。值得注意的是，有的工作把VQA视为序列生成问题，而有的则把VQA简化为一个答案范围可预知的分类问题。在前者的设定下，解码器是一个RNN，输出长度不等的序列；后者的解码器则是一个分类器，从预定义的词汇表中选择答案。

注意力机制

attention机制起源于机器翻译问题，目的是让模型动态地调整对输入项各部分的关注度，从而提升模型的“专注力”。而自从Xu等人将attention机制成功运用到Image Captioning中，attention机制在视觉任务中受到越来越多的关注，应用到VQA中也是再自然不过。上面就是将attention机制应用到上个方法中的示意图。

模型

红色部分表示，对图像进行多标签分类，得到图像标签（attribute）。
蓝色部分表示，把上述图像标签中最明显的5个标签输入知识库DBpedia中检索出相关内容，然后利用Doc2Vec进行编码。
绿色部分表示，利用上述图像标签生成多个图像描述（caption），将这一组图像描述编码。
以上三项同时输入到一个Seq2Seq模型中作为其初始状态，然后该Seq2Seq模型将问题进行编码，解码出最终答案，并用

最低0.47元/天解锁文章

博客等级

码龄4年

58
原创

738
点赞

718
收藏

550
粉丝

关注

私信

热门文章

分类专栏

最新评论

SAR目标检测
找到了我家猪猪: 你好我想问一下你在将配置文件的占位符改为MSFA可以跑了吗，为什么我这边还显示module is not callable万分感谢，还有需要做别的改动吗
数据库组成及原理
征途黯然.: 数据库组成及原理 article is fantastic! It's truly eye-opening.
SAR目标检测
唐果然: 是不是标签文件里面没有那个类别啊？或者你看看配置文件，是不是有的没有注册。我记得我当时好像原作者的配置文件里面有一个是占位符，是需要自己改的
SAR目标检测
星星掉落: 您好，请问您是成功复现了MSFA吗？效果好吗？我用msfa的配置文件复现时报错'ImageClassifier is not in the mmdet::model registry. 用mmdetection训练成功了，但是精度很低。想请问一下您知道怎么解决吗？
计算机网络简答题
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

唐果然 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。