这篇文章只讲下VQA的文件结构和文件内容,官方工具的用法及一些小技巧。
VQA数据集概况
其实VQA有很多种数据集,比较常用的有VQA v1.0、 VQA v2.0、Visual7W等。这篇文章中使用的数据集主要是VQA v1.0(其实和2.0差不多,读取方式没变,只是优化了内容,让模型更加不容易通过蒙来答对问题)。
直接开始吧。
VQA V1.0结构及内容概要
VQA v1.0的数据集内容如下1:
VQA的结构:
以上图片截图自VQA官网
总之就是每张图片对应3个以上的问题(平均5.4个),每个问题对应10个正确答案和3个可能是正确的答案。
VQA文件结构
VQA文件主要分为图片、Questions和Annotations,test数据集没有Annotations文件。文件格式为json。