【多模态+数据集】LLaVa1.5训练数据集解析(用于参考制作自己数据集)

LLaVa 家族 (Large Language and Vision Assistant )

代码: https://github.com/haotian-liu/LLaVA
LLaVA-1.5论文: 23.10.Improved Baselines with Visual Instruction Tuning

LLaVA-1.5论文解析:https://blog.csdn.net/imwaters/article/details/136896668

LLaVA1.5 训练用到的数据集

一、特征对齐数据集 558K

558K subset of the LAION-CC-SBU dataset with BLIP captions

二、66.5w视觉对话微调数据集构成

指令微调用到的对话数据集:主要由llava_v1_5_mix665k.json

在这里插入图片描述
整理后的结构

├── coco
│   └── train2017
├── gqa
│   └── images
├── ocr_vqa
│   └── images
├── textvqa
│   └── train_images
└── vg
    ├── VG_100K
    └── VG_100K_2

LLaVA1.0 (158K)

**加粗样式**

4.1 GQA (图片深入理解-问答)

官网: https://cs.stanford.edu/people/dorarad/gqa/download.html
论文:GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

使用了Visual Genome场景图结构来创建多达22M个多样化的推理问题,并附带了表示语义的功能程序
在这里插入图片描述

4.2 Textcaps数据集 (对原始的testvqa数据集重新打标)

论文:20.03.TextCaps: a Dataset for Image Captioning with Reading Comprehension
官网下载:https://textvqa.org/textcaps/dataset/

旨在探究图像字幕生成中的阅读理解任务。该数据集包含了28,408张图像142,040个字幕,要求模型能够读取并理解图像中的文本信息,生成连贯的描述

基于图片中的文字进行描述(OCR+人类标准订正)
为每张图像收集了五个独立的标题。为测试集收集了另外 6 个标题
在这里插入图片描述

4.3 OCR-VQA-200K (图书封面文字问答,本模型训练只选了其中80K)

图片下载地址:https://www.kaggle.com/datasets/power0341/ocr-vqa-200k-full/download?datasetVersionNumber=1
论文地址:OCR-VQA: Visual Question Answering by Reading Text in Images

20万张图片,100万图像对
在这里插入图片描述
具体的问题问题:关于书的作者
在这里插入图片描述

4.4 VG (visual genome) 检测框+文字描述 (100k图片)

论文:Visual Genome: 视觉基因组_使用众包密集图像注释连接语言和视觉
1602.Connecting Language and Vision Using Crowdsourced Dense Image Annotations

包含了108,249张图像,并为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图

并为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图
在这里插入图片描述

4.5 OK-VQA: 需要外部知识视觉问答数据集 (原始14K问题)

OK-VQA:Outside Knowledge Visual Question Answering (图像内容不足以回答问题,需要借助外力)
论文:1906.A Visual Question Answering Benchmark Requiring External Knowledge

图 2:数据集示例。显示了一些示例问题及其相应的图像和答案。我们展示了每个知识类别的一个示例问题 (翻译后的)
在这里插入图片描述

4.6 A-OKVQA (增强外部知识的视觉问答)

论文:Augmented OK-VQA : 2206. A Benchmark for Visual Question Answering using World Knowledge

图1: 数据集示例
该数据集包括需要使用各种知识类型进行推理的问题,例如常识、世界知识和视觉知识。我们提供多项选择 (Multiple-Choice,MC) 和直接答案评估设置。训练集中每个问题都有一个基本原理(rationale),为回答问题提供解释/知识。
在这里插入图片描述

VQAv2

论文:1703.Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

作者收集了成对的类似图片,每个问题对应两个不同的答案,使得模型必须依靠视觉信息来正确回答问题

图1 数据集说明

在这里插入图片描述

图2 其他案例

在这里插入图片描述

  • 23
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

曾小蛙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值