数据集
- ST-VQA | Paper | Download
- Text-VQA | Paper | Download
- OCR-VQA | Paper | Download
- EST-VQA | Paper | Download 【已开放下载】
TextVQA
数据集:28,408 张图像,45,336 个问题 ( 37,912 ),453,360 个答案 ( 26,263 )
训练集:21,953 张图像,34,602 个问题
验证集: 3,166 张图像, 5,000 个问题
测试集: 3,289 张图像, 5,734 个问题
数据来源:Open Images v3 dataset
每张图像 1-2 个问题,每个问题 10 个答案,问题的平均长度为 7.18 个单词,答案的平均长度为 1.58 个单词
问题的前四个单词的分布:
例子:
ST-VQA
数据集:23,038张图像,31,791个问题
训练集:19,027张图像,26,308个问题
测试集: 2,993 张图像, 4,163个问题
数据来源 :Coco-Text, Visal Genome, VizWiz, ICDAR(13+15), ImageNet, IIIT-STR
问题的前四个单词的分布:
例子:
OCR-VQA
207572 张图像(书的封面),超过100万个问答对 ( train : val : test = 8 : 1 : 1 )
数据来源:Book Cover Dataset
例子:
EST-VQA ( Chinese + English)
数据集:25239张图像,28062个问题
训练集:20757张图像,23062个问题
测试集: 4482张图像, 5000个问题
数据来源:
英文数据:Total-Text, ICDAR2013, ICDAR2015, CTW1500, MLT, COCO-Text
中文数据:LSVT
15056个英文问题和13006个中文问题;
只可以通过图像中文本回答,并且还标注了该答案对应的矩形边界框(证据)
数据集的中英分布:
问题前四个单词分布:
例子:
数据集对比
数量对比:
[4] ST-VQA
[24] OCR-VQA
[29] Text-VQA
最后一行是 STE-VQA
TextVQA 和 ST-VQA 数据集对比:
- ST-VQA的数据源多样,而TextVQA的数据源仅仅来自Open Images数据集;
- 依据提出的问题,ST-VQA 比 TextVQA 的问题更能被无歧义的回答;
- Text-VQA 的图像从一个数据集中筛选出来的,有 39% (18K) 的问题的答案不能从OCR结果中找到,而ST-VQA 几乎可以全部使用图片中的文本回答。