多模态大模型数据集

本文概述了多个大规模多模态数据集,包括Caption数据集中的视频和图像描述,以及SFT数据集中的文本、视频和图像,这些数据集为AI研究尤其是自然语言处理提供了丰富的资源,促进了跨领域的技术发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

符号说明

符号含义
K1千
M100万
B10亿

Caption数据集

caption数据类型数量链接语种
yttemporal180m视频6Mhttps://huggingface.co/datasets/HuggingFaceM4/yttemporal180m英语
HowTo100M视频136Mhttps://www.di.ens.fr/willow/research/howto100m/英语
HD-VILA-100M视频100Mhttps://github.com/microsoft/XPretrain/tree/main/hd-vila-100m英语
WebVid10M视频10Mhttps://maxbain.com/webvid-dataset/英语
InternVid视频10Mhttps://huggingface.co/datasets/OpenGVLab/InternVidhttps://opendatalab.com/shepshep/InternVid英语
caption数据类型数量链接语种
ShareGPT4V图像1246Khttps://github.com/InternLM/InternLM-XComposer/blob/main/projects/ShareGPT4V/docs/Data.md英语
sbu_captions图像1Mhttps://huggingface.co/datasets/sbu_captions?row=32英语
LAION-400-M图像400Mhttps://laion.ai/blog/laion-400-open-dataset/英语
LAION-5B图像5Bhttps://laion.ai/blog/laion-5b/英语
GRIT图像20Mhttps://huggingface.co/datasets/zzliang/GRIT英语

SFT数据集

SFT数据类型数量链接语种
M3IT视频/图像1.9Mhttps://huggingface.co/datasets/MMInstruction/M3IT英语/中文/80种语言
valley视频84Khttps://huggingface.co/datasets/luoruipu1/Valley-Instruct-73k英语
CogVLM-SFT-311K图片311Khttps://huggingface.co/datasets/THUDM/CogVLM-SFT-311K英语
LVIS-Instruct4V图片880Khttps://huggingface.co/datasets/X2FD/LVIS-Instruct4V英语
macaw视频50Khttps://github.com/lyuchenyang/Macaw-LLM/blob/main/data/generated_examples_avsd.json英语
chaoswork文本一堆https://github.com/chaoswork/sft_datasets/tree/master?tab=readme-ov-file英语/中文
### 多模态大模型心理情感数据集 对于训练多模态大型模型中的心理情感识别,存在多种可用的数据集。这些数据集通常包含了来自不同模式的信息,比如文本、图像以及音频等。 #### IEMOCAP 数据集 IEMOCAP 是一个多模态的情感语料库,它由五名演员参与录制而成。该数据集中不仅有对话的文字记录还有对应的视频片段和声音文件。这使得研究人员能够利用多个感官输入来提高情绪检测的准确性[^1]。 ```python import torch from datasets import load_dataset dataset = load_dataset('iemocap') print(dataset['train'][0]) ``` #### AffectNet 数据集 AffectNet 提供了大量的面部表情图片及其标注的情绪类别标签。此资源可以用来增强视觉理解能力,在处理涉及人类互动场景的任务时特别有用。通过结合其他形式的感觉信息(如语音),可进一步提升系统的性能表现[^2]。 ```python from torchvision.datasets import ImageFolder from transformers import AutoFeatureExtractor, ResNetForImageClassification feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/resnet-50") model = ResNetForImageClassification.from_pretrained("microsoft/resnet-50") affect_net_path = "/path/to/affectnet" dataset = ImageFolder(affect_net_path) for image, label in dataset: inputs = feature_extractor(image.convert("RGB"), return_tensors="pt") outputs = model(**inputs) logits = outputs.logits ``` #### MELD (Multimodal EmotionLines Dataset) 数据集 MELD 是一个基于电影剧本创建的大规模多模态情感分析数据库。其特色在于提供了丰富的上下文环境描述,并且每条记录都关联着特定角色所说的话。这对于理解和预测复杂社会情境下的个体反应非常有价值[^3]。 ```python meld_data = load_dataset('meld', 'dialogue') def show_example(index=0): example = meld_data['train'][index] print(f"Speaker: {example['speaker']}") print(f"Dialouge: {example['text']}") print(f"Emotion Label: {example['emotion']}") show_example() ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

只会git clone的程序员

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值