Text-VQA数据集以及方法总结

数据集

TextVQA

官网链接 | 下载链接 | 论文链接

数据集:28,408 张图像,45,336 个问题 ( 37,912 ),453,360 个答案 ( 26,263 )
训练集:21,953 张图像,34,602 个问题
验证集: 3,166 张图像, 5,000 个问题
测试集: 3,289 张图像, 5,734 个问题

数据来源:Open Images v3 dataset

每张图像 1-2 个问题,每个问题 10 个答案,问题的平均长度为 7.18 个单词,答案的平均长度为 1.58 个单词

问题的前四个单词的分布:

在这里插入图片描述

例子:
在这里插入图片描述

ST-VQA

官网链接 | 下载链接论文链接

数据集:23,038张图像,31,791个问题
训练集:19,027张图像,26,308个问题
测试集: 2,993 张图像, 4,163个问题

数据来源 :Coco-Text, Visal Genome, VizWiz, ICDAR(13+15), ImageNet, IIIT-STR

在这里插入图片描述

问题的前四个单词的分布:

在这里插入图片描述

例子:

在这里插入图片描述

OCR-VQA

官网链接 | 下载链接论文链接

207572 张图像(书的封面),超过100万个问答对 ( train : val : test = 8 : 1 : 1 )

数据来源:Book Cover Dataset

在这里插入图片描述

例子:

在这里插入图片描述

EST-VQA ( Chinese + English)

官网链接 | 下载链接 | 论文链接

数据集:25239张图像,28062个问题
训练集:20757张图像,23062个问题
测试集: 4482张图像, 5000个问题

数据来源:
英文数据:Total-Text, ICDAR2013, ICDAR2015, CTW1500, MLT, COCO-Text
中文数据:LSVT

15056个英文问题和13006个中文问题;
只可以通过图像中文本回答,并且还标注了该答案对应的矩形边界框(证据)

数据集的中英分布:

在这里插入图片描述

问题前四个单词分布:

在这里插入图片描述
在这里插入图片描述

例子:

在这里插入图片描述

数据集对比

数量对比:
在这里插入图片描述

[4] ST-VQA
[24] OCR-VQA
[29] Text-VQA
最后一行是 STE-VQA

TextVQA 和 ST-VQA 数据集对比:

  1. ST-VQA的数据源多样,而TextVQA的数据源仅仅来自Open Images数据集;
  2. 依据提出的问题,ST-VQA 比 TextVQA 的问题更能被无歧义的回答;
  3. Text-VQA 的图像从一个数据集中筛选出来的,有 39% (18K) 的问题的答案不能从OCR结果中找到,而ST-VQA 几乎可以全部使用图片中的文本回答。

方法

### 多模态回归预测数据集 对于多模态回归预测的任务,存在多个常用的数据集可以支持机器学习的研究和发展。以下是几个典型的数据集: #### 1. NUS-WIDE 数据集 NUS-WIDE 是一个多标签图像数据库,包含了大约265,000张图片以及对应的文本描述。这个数据集非常适合用来探索图像和文本之间的关系,并可用于构建多模态的回归模型[^1]。 ```python import tensorflow as tf from tensorflow.keras.preprocessing.image import img_to_array, load_img # 加载并预处理单个样本作为例子 image_path = 'path/to/nus_wide/image.jpg' text_description = "example text description" img = load_img(image_path, target_size=(224, 224)) arr = img_to_array(img) print(f"Image shape: {arr.shape}") print(f"Text Description Length: {len(text_description)}") ``` #### 2. MS COCO (Microsoft Common Objects in Context) MS COCO 提供了大量的自然场景下的高质量标注图像及其详细的语义分割、目标检测框及文字说明。此数据集中丰富的信息使得其成为理想的多模态分析对象之一。 #### 3. VQA (Visual Question Answering) Dataset VQA 数据集不仅提供了大量的图像资源,还附带了针对这些图像的具体问题与答案对。这些问题往往涉及定量估计或属性判断等内容,因此特别适合开展多模态回归任务的研究[^3]. #### 4. TIDIGITS Database TIDIGITS 是一个语音识别领域内的经典数据集,其中含有说话者朗读数字串的声音文件连同相应的转录本。虽然主要用于音频处理方面的工作,但对于想要尝试跨媒体(比如声音-文本)之间建立联系的应用来说也是不错的选择。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CharlesWu123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值