Github：视觉问答最新资源汇总

最新推荐文章于 2024-03-18 20:09:45 发布

我爱计算机视觉

最新推荐文章于 2024-03-18 20:09:45 发布

阅读量272

点赞数

原文链接：https://github.com/jokieleung/awesome-visual-question-answering

版权

点击我爱计算机视觉标星，更快获取CVML新技术

近日，52CV群友jokieleung对视觉问答技术涉及到的近几年相关论文和代码进行了总结，并放到了Github上，对于想了解、跟踪该方向的朋友，非常值得参考。

分享网址：

https://github.com/jokieleung/awesome-visual-question-answering

何为视觉问答Visual Question Answering，VQA）？

以下为引用知乎深度学习大讲堂关于此的定义介绍。

视觉问答，是一种涉及计算机视觉和自然语言处理的学习任务。

这一任务的定义如下：

A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output。

翻译为中文：一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入，以生成一条自然语言答案作为输出。简单来说，VQA就是给定的图片进行问答。

VQA系统需要将图片和问题作为输入，结合这两部分信息，产生一条人类语言作为输出。针对一张特定的图片，如果想要机器以自然语言来回答关于该图片的某一个特定问题，我们需要让机器对图片的内容、问题的含义和意图以及相关的常识有一定的理解。

VQA涉及到多方面的AI技术（图1）：

细粒度识别（这位女士是白种人吗？）

物体识别（图中有几个香蕉？）

行为识别（这位女士在哭吗？）

和对问题所包含文本的理解（NLP）。

综上所述，VQA是一项涉及了计算机视觉（CV）和自然语言处理（NLP）两大领域的学习任务。它的主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。

在awesome-visual-question-answering项目中，作者精心总结了Visual Question Answering(VQA)(Image/Video Question Answering),Visual Question Generation ,Visual Dialog ,Visual Commonsense Reasoning 等相关领域的最新论文与对应代码。

作者称该工程将不断完善、持续更新，也欢迎大家提交相关资料。

再发一下网址：

https://github.com/jokieleung/awesome-visual-question-answering

点击阅读原文直达项目主页。

加群交流

关注计算机视觉与机器学习技术，欢迎加入52CV群，扫码添加52CV君拉你入群，

（请务必注明:52CV）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：702781905。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

我爱计算机视觉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。