智源研究院开源中文互联网语料库CCI3.0，1000GB数据集，498GB高质量子集，魔搭社区可下载

Bj陈默

已于 2024-10-08 22:58:33 修改

阅读量129

点赞数 2

文章标签：人工智能 big data

于 2024-10-08 22:57:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chinansa/article/details/142771505

版权

近日，在由中央网信办指导，北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的2024北京文化论坛“新兴业态与技术融合”平行论坛上，智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet，简称 CCI)，包括1000GB的数据集以及498GB的高质量子集CCI3.0-HQ。智源研究院于2023年11月首次开源CCI 1.0，并在2024年4月发布CCI 2.0。目前，CCI系列数据集下载量已超过4万次，服务500多个企事业单位的大模型研发，助力高质量中文语料和训练数据建设，支撑中国人工智能产业生态发展。

CCI 3.0下载地址

Flopsera：

http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

ModelScope：

https://www.modelscope.cn/datasets/BAAI/CCI3-Data

Datahub：

https://data.baai.ac.cn/details/BAAI-CCI3

1

规模扩大，来源广泛

CCI 3.0收录超过2.68亿个网页，涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍，数据来源机构扩展至20多家，显著提升数据覆盖面和代表性。

2

精细标注，赋能应用

CCI 3.0对原始数据进行了覆盖语法、句法、教育程度等10多个维度的细粒度分类和详细标记，以筛选高价值数据，为企业定制个性化训练数据提供可能性。此外，CCI 3.0 HQ是基于70B模型自动标注样本，然后训练小尺寸质量模型进行优中选优得到的高质量子集，可更好地满足不同行业和应用场景的需求。

3

效果显著，更懂中文

同一500M模型基于不同的数据集从零开始训练100B数据对比实验表明，CCI 3.0在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集，而CCI 3.0 HQ的效果更加突出。

模型训练效果对比

未来，智源研究院将继续携手行业生态推动语料库共建共享，构建大规模高质量高知识密度的中文数据集，为中国人工智能产业发展做出贡献。

点击链接，直达数据集~

https://www.modelscope.cn/datasets/BAAI/CCI3-Data

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Bj陈默 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。