视觉问答 Visual Question Answering (VQA)入门

马上就要结束研一上学期的学习,作者也在这个学期里从一个啥也不会的小白,到也算入门(keng)了视觉问答 Visual Question Answering (VQA)这一领域。相较于计算机视觉(CV)领域的其他任务,如检测、识别、分割等等,VQA算是一个新兴且小众的领域,因此相关的接近新手教程般的博客还是比较少。写这篇博客一是记录下半年所学,二是希望回馈一直帮助我的CSDN社区,帮助到可能要入门的同志们。(好像扯远了……)

这篇博客主要包含两个部分:第一部分是对VQA的综述,包括VQA task的定义、常用数据集与常用方法等。第二部分是coding部分,如何使用pytorch实现一个VQA系统。

1.VQA综述

事实上,入门任何一个领域最快的方法就是阅读该领域具有代表性的一篇论文(进一步地,最好是能在读过一定的论文之后再自己写一篇综述)。这里推荐2017年发表在CVIU上的《Visual question answering: A survey of methods and datasets

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值