论文-《Visual Question Answering A tutorial》笔记

最新推荐文章于 2023-05-22 14:47:57 发布

Vivinia_Vivinia

最新推荐文章于 2023-05-22 14:47:57 发布

阅读量522

点赞数

分类专栏：论文文章标签： VQA 笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hester_hester/article/details/102508020

版权

本文详细介绍了视觉问答（VQA）的研究背景、答案类型、与图像标题的区别，以及常用数据集。VQA处理过程包括图像和问题编码、特征联合、输出预测等步骤。文中还探讨了注意力机制、预训练语言表示、记忆增广神经网络等高级技术，以及数据集偏差和生词处理问题。最后，总结了VQA领域的发展现状和未来研究方向。

摘要由CSDN通过智能技术生成

重点翻译拓展

主题：

本文主要介绍了该领域正在进行的工作以及基于深度学习的VQA如今的方法。

正文：

1.研究VQA的原因：

（1）计算机视觉方面，需要根据算法从图像中提取高水平的数据并进行推理分析，VQA作为最初图灵测试或者图像字幕的替代任务出现。

（2）VQA如果发展成熟，可以独立应用于生活。

2.VQA答案形式：

（1）开放式回答，包含了较为复杂句式，并且机器生成的答案和正确答案可能会有同义替换释义之类的问题。

（2）多选项式回答，提供了一组候选答案，相比开放式回答要容易，并且验证也更加容易。

3.VQA与Image captioning 区别：

两个方向都是跨计算机视觉和自然语言处理领域的方向，但是还是有以下区别

（1）Image captioning更多的要求描述性能，这几乎涉及纯粹的视觉信息，答案不固定，是一种开放式回答。

（2）VQA除了要求对图像和文本信息的提取，然后通过常识和给定图片中不存在的其它信息进行推理，答案格式不唯一。

最低0.47元/天解锁文章

Vivinia_Vivinia

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。