目录
写在前面
仅作个人学习记录用。本文主要记录部分开源多模态/问答数据集的信息(持续更新)
通用多模态检索/问答数据集
1. ALLaVA-4V
数据链接:
https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V
代码链接:
https://github.com/FreedomIntelligence/ALLaVA
数据样例:
2. LLaVA-v1.5-mix665k
数据链接:
https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/blob/main/llava_v1_5_mix665k.json
代码链接:
https://github.com/haotian-liu/LLaVA
数据样例:
66.5w视觉对话微调数据集构成:
GQA数据集:
OCR-VQA数据集:
OK-VQA(需要外部知识视觉问答数据集):
A-OKVQA(需要外部知识视觉问答数据集):
VQAv2数据集(成对类似图片,每个问题对应两个不同的答案):
Textcaps数据集(用于图像字幕生成中的阅读理解任务):
VG数据集(为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图):
3. ShareGPT4V 训练数据集
数据链接:
https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md
4. MiniGPT-4 微调数据集
数据链接:
(第一阶段)https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md
(第二阶段)https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md
5. ShareGPT4V 训练数据集
数据链接:
https://huggingface.co/datasets/Lin-Chen/ShareGPT4V
6. OmniCorpus
数据链接:
https://huggingface.co/datasets/OpenGVLab/OmniCorpus-CC-210M
代码链接:
https://github.com/OpenGVLab/OmniCorpus
数据样例:
7. MINT-1T
数据链接:
https://huggingface.co/datasets/mlfoundations/MINT-1T-HTML
代码链接:
https://github.com/mlfoundations/MINT-1T
数据样例:
其他(领域)多模态检索/问答数据集
1. GeoGPT4V(用于解决几何问题)
数据链接:
https://huggingface.co/datasets/caishihao/GeoGPT4V-1.0
2. IconQA(抽象图表理解)
数据链接:
https://huggingface.co/datasets/lmms-lab/ICON-QA
3. 甲骨文多模态数据集
数据链接:
https://www.jgwlbq.org.cn/dt/oracleFragment