视觉问答 Visual Question Answering （VQA）入门

最新推荐文章于 2024-03-18 20:09:45 发布

创园娃同学

最新推荐文章于 2024-03-18 20:09:45 发布

阅读量3.6k

点赞数 3

本文链接：https://blog.csdn.net/qq_42024428/article/details/103960342

版权

马上就要结束研一上学期的学习，作者也在这个学期里从一个啥也不会的小白，到也算入门（keng）了视觉问答 Visual Question Answering （VQA）这一领域。相较于计算机视觉（CV）领域的其他任务，如检测、识别、分割等等，VQA算是一个新兴且小众的领域，因此相关的接近新手教程般的博客还是比较少。写这篇博客一是记录下半年所学，二是希望回馈一直帮助我的CSDN社区，帮助到可能要入门的同志们。（好像扯远了……）

这篇博客主要包含两个部分：第一部分是对VQA的综述，包括VQA task的定义、常用数据集与常用方法等。第二部分是coding部分，如何使用pytorch实现一个VQA系统。

1.VQA综述

事实上，入门任何一个领域最快的方法就是阅读该领域具有代表性的一篇论文（进一步地，最好是能在读过一定的论文之后再自己写一篇综述）。这里推荐2017年发表在CVIU上的《Visual question answering: A survey of methods and datasets》