数据集-(图像-文本):LAION【史上最大规模多模态图文数据集,包含58.5亿个图像-文本对】

继去年LAION-400M[1]这个史上最大规模多模态图文数据集发布之后,今年又又又有LAION-5B[2]这个超大规模图文数据集发布了。

其包含 58.5 亿个 CLIP [5]过滤的图像-文本对的数据集,比 LAION-400M 大 14 倍,是世界第一大规模、多模态的文本图像数据集,共80T数据,并提供了色情图片过滤、水印图片过滤、高分辨率图片、美学图片等子集和模型,供不同方向研究。

一起来看看。


今年大火的DALL·E 2 再次掀起了多模态图文匹配研究热潮。

在图文匹配领域,CLIP[5]模型使得在ImageNet上的zero-shot分类精度从11.5%提升到76.2%,受此启发,ALIGN[3]、BASIC[4]等大型图文多模态模型进一步改进,除了本身的模型优化之外,目前的进展其实都比较依赖底层的上亿图文对数据,但这些数据集及模型仅有少数公开,所以LAION提出了LAION-5B及在该数据集上训练的模型,并提供web界面提供预先计算的向量和搜索功能。

图1: LAION-5B检索样例。数据来源:https://laion.ai/blog/laion-5b/

LAION-5B通过CommonCrawl获取文本和图片,OpenAI的CLIP计算后获取图像和文本的相似性,并删除相似度低于设定阈值的图文对(英文阈值0.28,其余阈值0.26),500亿图片保留

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值