多模态数据集
文章平均质量分 92
OpenDataLab
坚持战略性、前瞻性、开放性、公益性的科研理念,践行共享数据资源的推广,打造国际领先的AI数据平台
展开
-
《多模态语料库 “书生·万卷” 1.0 详细解读 | 附下载地址》
OpenDataLab 联合大模型语料数据联盟构建了“书生·万卷”数据集,旨在为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料原创 2023-08-23 19:50:58 · 702 阅读 · 0 评论 -
基于PySpark的10亿级数据集LAION-5B元数据快速处理实践(全文分享)
多模态大模型训练如火如荼展开,但以LAION-5B为代表的大规模多模态数据集获取却成了一个令人头疼的问题。OpenDataLab两位工程师在浦数 AI Talk做了非常实用的LAION-5B下载经验分享,我们整理了其,希望能对大家下载同类数据集提供帮助和参考。原创 2023-06-06 18:48:54 · 1311 阅读 · 0 评论 -
80TB!58.5亿!世界第一大规模公开图文数据集LAION-5B 解读
LAION-5B,这个包含超过50亿图像文本对的数据集,进一步扩展了语言视觉模型的开放数据集规模,使得更多研究者能够参与到多模态领域中原创 2022-10-09 13:51:34 · 5574 阅读 · 0 评论