数据集-(图像-文本)：LAION【史上最大规模多模态图文数据集，包含58.5亿个图像-文本对】

u013250861

已于 2024-02-25 23:07:55 修改

阅读量4.8k

点赞数 1

分类专栏： VLM/多模态文章标签：人工智能计算机视觉深度学习

于 2023-05-02 11:47:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/130462444

版权

VLM/多模态专栏收录该内容

39 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

LAION-5B是继LAION-400M后的超大规模图文数据集，包含58.5亿个图像-文本对，是世界最大、多模态的文本图像数据集。该数据集用于图文匹配、多模态预训练、生成任务和分类任务，提供多种子集和预训练模型，并有KNN索引和web界面。LAION-5B的开放促进了多模态领域的多元化研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

继去年LAION-400M[1]这个史上最大规模多模态图文数据集发布之后，今年又又又有LAION-5B[2]这个超大规模图文数据集发布了。

其包含 58.5 亿个 CLIP [5]过滤的图像-文本对的数据集，比 LAION-400M 大 14 倍，是世界第一大规模、多模态的文本图像数据集，共80T数据，并提供了色情图片过滤、水印图片过滤、高分辨率图片、美学图片等子集和模型，供不同方向研究。

一起来看看。

今年大火的DALL·E 2 再次掀起了多模态图文匹配研究热潮。

在图文匹配领域，CLIP[5]模型使得在ImageNet上的zero-shot分类精度从11.5%提升到76.2%，受此启发，ALIGN[3]、BASIC[4]等大型图文多模态模型进一步改进，除了本身的模型优化之外，目前的进展其实都比较依赖底层的上亿图文对数据，但这些数据集及模型仅有少数公开，所以LAION提出了LAION-5B及在该数据集上训练的模型，并提供web界面提供预先计算的向量和搜索功能。

图1: LAION-5B检索样例。数据来源：https://laion.ai/blog/laio

了解本专栏

超级会员免费看

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。