【学习记录】开源多模态检索/问答数据集

原创于 2024-10-11 14:49:30 发布

· 1k 阅读

·

16

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #计算机视觉 #自然语言处理 #语言模型 #nlp #深度学习 #AIGC

学习记录专栏收录该内容

6 篇文章

订阅专栏

目录

写在前面
通用多模态检索/问答数据集
其他（领域）多模态检索/问答数据集

写在前面

仅作个人学习记录用。本文主要记录部分开源多模态/问答数据集的信息（持续更新）

通用多模态检索/问答数据集

1. ALLaVA-4V

数据链接：

https://huggingface.co/datasets/FreedomIntelligence/ALLaVA-4V

代码链接：

https://github.com/FreedomIntelligence/ALLaVA

数据样例：
在这里插入图片描述

2. LLaVA-v1.5-mix665k

数据链接：

https://huggingface.co/datasets/liuhaotian/LLaVA-Instruct-150K/blob/main/llava_v1_5_mix665k.json

代码链接：

https://github.com/haotian-liu/LLaVA

数据样例：

66.5w视觉对话微调数据集构成：

在这里插入图片描述
GQA数据集：

OCR-VQA数据集：
在这里插入图片描述

OK-VQA（需要外部知识视觉问答数据集）：
在这里插入图片描述

A-OKVQA（需要外部知识视觉问答数据集）：
在这里插入图片描述

VQAv2数据集（成对类似图片，每个问题对应两个不同的答案）：
在这里插入图片描述

Textcaps数据集（用于图像字幕生成中的阅读理解任务）：
在这里插入图片描述

VG数据集（为每张图像提供了多个区域的描述和QA对，以及整张图像的场景图）：
在这里插入图片描述

3. ShareGPT4V 训练数据集

数据链接：
https://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md

4. MiniGPT-4 微调数据集

数据链接：
（第一阶段）https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md
（第二阶段）https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md

5. ShareGPT4V 训练数据集

数据链接：
https://huggingface.co/datasets/Lin-Chen/ShareGPT4V

6. OmniCorpus

数据链接：

https://huggingface.co/datasets/OpenGVLab/OmniCorpus-CC-210M

代码链接：

https://github.com/OpenGVLab/OmniCorpus

数据样例：
在这里插入图片描述

7. MINT-1T

数据链接：

https://huggingface.co/datasets/mlfoundations/MINT-1T-HTML

代码链接：

https://github.com/mlfoundations/MINT-1T

数据样例：
在这里插入图片描述

其他（领域）多模态检索/问答数据集

1. GeoGPT4V（用于解决几何问题）

数据链接：
https://huggingface.co/datasets/caishihao/GeoGPT4V-1.0

2. IconQA（抽象图表理解）

数据链接：
https://huggingface.co/datasets/lmms-lab/ICON-QA

3. 甲骨文多模态数据集

数据链接：
https://www.jgwlbq.org.cn/dt/oracleFragment

博客等级

码龄3年

27
原创

574
点赞

520
收藏

5350
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 【工程记录】GLM-4V-9B 部署的详细教程（Windows）

下一篇：: 【论文阅读】OWKRL：2024年的视觉推理任务不用VLMs还可以怎么做

最新评论

【杂记】vLLM多卡推理踩坑记录
LZXCyrus: 这可能也是worker进程之间无法正常通信导致的，可以参考这个：https://huo.zai.meng.li/p/vllm启动时nccl遇到显卡p2p通信问题/
【杂记】vLLM多卡推理踩坑记录
夜瑾: 大佬，请教下,单卡推理正常，然后多卡就会出现如下卡住了，且同一个容器，在测试环境可以，一到另一个就出现如下错误，很离谱.....，您有遇到过类似的吗 [W513 02:43:55.168160995 socket.cpp:204] [c10d] The hostname of the client socket cannot be retrieved. err=-3 [W513 02:44:05.178329425 socket.cpp:204] [c10d] The hostname of the client socket cannot be retrieved. err=-3 (VllmWorkerProcess pid=633) INFO 05-13 02:44:05 [utils.py:1055] Found nccl from library libnccl.so.2 INFO 05-13 02:44:05 [utils.py:1055] Found nccl from library libnccl.so.2 (VllmWorkerProcess pid=633) INFO 05-13 02:44:05 [pynccl.py:69] vLLM is using nccl==2.21.5 INFO 05-13 02:44:05 [pynccl.py:69] vLLM is using nccl==2.21.5
【工程记录】QwQ-32b 8bit量化部署教程（vLLM | 缓解复读）
LZXCyrus: gguf就是为 llama.cpp设计的，当然速度会更快，用vLLM加载gguf出现性能警告是正常的，但是也能用，我写这个主要是懒得换推理框架
【工程记录】QwQ-32b 8bit量化部署教程（vLLM | 缓解复读）
weixin_46918065: vllm加载gguf文件会报警告：gguf quantization is not fully optimized yet. The speed can be slower than non-quantized models. 请问gguf是不是得用llamacpp加载？
【论文笔记】FactorVAE：量化投资领域中引入因子的变分自编码器
snakely1987: 编码器的代码，关于portfolio_returns那部分是不是描述错了，portfolio_returns是个m*1的一维度向量吧？m是组合个数，原代码“ #portfolio_returns。shape = (batch_size, stock_size)”，是不是有问题

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。