【多模态+数据集】LLaVa1.5训练数据集解析（用于参考制作自己数据集）

曾小蛙

已于 2024-04-17 18:14:42 修改

阅读量8.8k

点赞数 31

分类专栏： # LLaVA家族（视觉语言多模态）文章标签： LLaVA 多模态

于 2024-04-16 18:34:03 首次发布

本文链接：https://blog.csdn.net/imwaters/article/details/137835237

版权

LLaVA家族（视觉语言多模态）专栏收录该内容

5 篇文章

订阅专栏

LLaVa 家族（`L`arge `L`anguage `a`nd `V`ision `A`ssistant ）

代码: https://github.com/haotian-liu/LLaVA
LLaVA-1.5论文: 23.10.Improved Baselines with Visual Instruction Tuning

LLaVA-1.5论文解析：https://blog.csdn.net/imwaters/article/details/136896668

LLaVA1.5 训练用到的数据集

一、特征对齐数据集 558K

558K subset of the LAION-CC-SBU dataset with BLIP captions

二、66.5w视觉对话微调数据集构成

指令微调用到的对话数据集：主要由llava_v1_5_mix665k.json

COCO: train2017
GQA: images
OCR-VQA: download script, ** .jpg** || huggingface 直接查看 || 论文
TextVQA: train_val_images
VisualGenome: part1, part2

在这里插入图片描述
整理后的结构

├── coco
│   └── train2017
├── gqa
│   └── images
├── ocr_vqa
│   └── images
├── textvqa
│   └── train_images
└── vg
    ├── VG_100K
    └── VG_100K_2

LLaVA1.0 (158K)

**加粗样式**

4.1 GQA (图片深入理解-问答)

官网： https://cs.stanford.edu/people/dorarad/gqa/download.html
论文：GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

使用了Visual Genome场景图结构来创建多达22M个多样化的推理问题，并附带了表示语义的功能程序

4.2 Textcaps数据集（对原始的testvqa数据集重新打标）

论文：20.03.TextCaps: a Dataset for Image Captioning with Reading Comprehension
官网下载：https://textvqa.org/textcaps/dataset/

旨在探究图像字幕生成中的阅读理解任务。该数据集包含了28,408张图像和142,040个字幕，要求模型能够读取并理解图像中的文本信息，生成连贯的描述

基于图片中的文字进行描述（OCR+人类标准订正）
为每张图像收集了五个独立的标题。为测试集收集了另外 6 个标题
在这里插入图片描述

4.3 OCR-VQA-200K （图书封面文字问答，本模型训练只选了其中80K）

图片下载地址：https://www.kaggle.com/datasets/power0341/ocr-vqa-200k-full/download?datasetVersionNumber=1
论文地址：OCR-VQA: Visual Question Answering by Reading Text in Images

20万张图片，100万图像对
在这里插入图片描述
具体的问题问题：关于书的作者

4.4 VG (visual genome) 检测框+文字描述 (100k图片)

论文：Visual Genome: 视觉基因组_使用众包密集图像注释连接语言和视觉
1602.Connecting Language and Vision Using Crowdsourced Dense Image Annotations

包含了108,249张图像，并为每张图像提供了多个区域的描述和QA对，以及整张图像的场景图

并为每张图像提供了多个区域的描述和QA对，以及整张图像的场景图
在这里插入图片描述

4.5 OK-VQA: 需要外部知识视觉问答数据集（原始14K问题）

OK-VQA：Outside Knowledge Visual Question Answering （图像内容不足以回答问题，需要借助外力）
论文：1906.A Visual Question Answering Benchmark Requiring External Knowledge

图 2：数据集示例。显示了一些示例问题及其相应的图像和答案。我们展示了每个知识类别的一个示例问题（翻译后的）
在这里插入图片描述