华为诺亚方舟 | 构建1亿组图文对中文多模态数据集

华为诺亚方舟实验室发布了首个亿级中文多模态数据集悟空,包含1亿组图文对,质量高且内容新颖。数据集旨在支持大规模预训练模型,弥补中文领域大规模数据集的不足。团队还提供了一个基本模型,其图像编码器在英文数据集上预训练,可用于中文多模态预训练,表现出色。此外,还给出了在多个下游任务上的基准测试结果,证明了该数据集的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

每天给你送来NLP技术干货!


行早 发自 凹非寺
量子位 | 公众号 QbitAI

华为诺亚方舟实验室开源了第一个亿级中文多模态数据集:悟空。

这个新发布的数据集不仅规模大——包含1亿组图文对,而且质量也很高。

所有图像都是筛选过的,长宽都在200个像素以上,比例从1/3-3不等。

而和图像对应的文本也根据其语言、长度和频率进行了过滤,隐私和敏感词也都考虑在内。

例如这一组数据集中的例子,内容还相当新,像进门扫码登记,社区疫苗接种的防疫内容都有。

82a6ace404722173ef4948c7b270d4cf.png

这一波可以说是填上了大规模中文多模态数据集的缺口。

悟空数据集

自一年前OpenAI的CLIP+Dall·E组合开启新一轮多模态学习浪潮以来,算上后续的ALIGN和FILIP,都在视觉语言预训练(VLP)领域表现优异。

世界范围内的成功离不开大规模数据集的支持,但中文开源数据方面,有是有,规模大的不多。

207495a184122b68dcaff8aae63e86a9.png

有了“悟空”数据集之后,就可以支持更多预训练模型用于下游任务。

数据集之外,团队还附赠了一款基本模型,参考了流行的文本图像双编码器架构:

2fbd624cb33c1888e76ffb2748bbd346.png

其中视觉标记和文本标记作为输入。然后,将两种模式的输入标记连接起来,并用位置嵌入来显示标记位置。

有意思的一点是,这里的图像编码器是从英文数据集上训练的,上面预加载并锁定了从外部模型中训练的英文数据集中的权重。

但是仍然可以中文文本进行跨模态预训练,在下游任务中也表现得很好。

除此之外,华为诺亚还提供了不同下游任务的基准测试

例如零样本图像分类,下图中除了WukongViT-500M,其他的悟空模型变体都是在这个一亿的数据库上训练的:

5cc7a287cae9bed564d2e610c0fe80b5.png

再比如在图像检索文本和文本检索图像这两个任务上,在五个不同的数据集上的测试结果如下:

87e49781882cff5cb50f18ba8f312370.png

而这也证明了将在英语数据集上预训练的图像编码器应用于中文多模态预训练的良好效果。未来也可能会探索更多的解决方案,利用悟空数据集训练多语言跨模态模型。

目前悟空数据集在官网即可下载,赶快用起来吧~

数据集地址:
https://wukong-dataset.github.io/wukong-dataset/benchmark.html

论文地址:
https://arxiv.org/abs/2202.06767


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

a66fba48a0bd70b900b3950e113a6b26.png

记得备注呦

整理不易,还望给个在看!
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值