2025年5月6日,在法国巴黎举办的全球开源创新论坛(GOSIM,Global Open-Source Innovation Meetup)上,智源研究院正式发布中文互联网语料库CCI 4.0(Chinese Corpora Internet,简称 CCI),并同步在智源DataHub、魔搭社区、Huggingface等平台进行逐步开源。
CCI 4.0-M2 V1(Multilingual-2,中英双语言)包含 CCI4.0-M2-Base V1、CCI4.0-M2-CoT V1和CCI4.0-M2-Extra V1共3个数据集。其中,CCI4.0-M2-Base V1数据量为35000GB,为中英双语,中文数据5000GB,与CCI3.0相比数据规模增加了5倍。CCI4.0-M2-CoT V1 包含了用于提升推理能力的4.5亿条逆向合成人类思考轨迹数据,总token数量达425B(4250亿),与现有全球最大的已开源的合成数据集Cosmopedia(由Hugging Face开源)相比,规模提升了近20倍。
CCI 4.0下载地址
https://huggingface.co/datasets/BAAI/CCI4.0-M2-Base-v1
https://huggingface.co/datasets/BAAI/CCI4.0-M2-CoT-v1
https://huggingface.co/datasets/BAAI/CCI4.0-M2-Extra-v1
一、智源 CCI 系列数据集:从 1.0 到 3.0 的创新进阶
自2023年10月起,智源研究院作为中国网络空间安全协会人工智能安全治理专业委员会数据集工作组的组长单位,牵头建设与开放了“中文互联网语料库(CCI)”系列高质量数据集,旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。
回顾CCI系列数据集的发展,CCI1.0、CCI2.0和CCI3.0 分别于 2023 年 11 月、2024 年 3 月及 10 月相继亮相,数据总量达 1.6T Byte。截至目前,CCI 系列数据集在国内外数据开放平台上的下载量已突破 14 万次,为 500 多个企事业单位的大模型研发提供了有力支持,极大地助力了高质量中文大模型的建设,也推动了中文语料和价值观在全球范围的输出,在国内外取得良好的反响。
二、CCI4.0数据集基本情况
(一)建设背景
从大模型发展趋势来看,大规模高质量的预训练语料库越来越成为大型语言模型取得成功的关键。DeepSeek-V3和Qwen3等工作都指出在预训练阶段加入大规模合成的推理数据很重要。为此,智源研究院联合多家机构和企业建设了具备大规模的优化推理能力的预训练数据集CCI4.0。
(二)数据来源
CCI4.0的原始数据包括Nemotron-CC、CCI系列、ChineseWebText2.0和FineWeb-2等中英文开源数据集以及多语言数据集等多个来源。开源数据集方面,严格遵守原始数据开源协议,不符合开源要求的数据另行开源。合作数据方面,与百度、阿里、华为、百川智能、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、上海人工智能实验室、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞、智谱华章共17家工作组成员单位逐一沟通,确认各成员单位贡献的数据可进行开源。
(三)数据处理与安全审查
CCI4.0经过了严格的数据处理,按照规则进行过滤、去重、质量评分、Loss分领域分桶过滤,形成了6T Token数据(6万亿个词元)。英文数据集的处理上,在开源数据集基础上进行了领域分类和分领域流畅度过滤等处理。中文数据集进行了常规过滤和安全敏感词过滤、全局去重和分领域来源字符串去重、分领域流畅程度过滤、多种质量打分和分档等处理;合成数据集进行了语义分段及摘要、总结思维链及合成问题等处理。经过以上严格的数据处理,可以有效提升模型基础的推理能力。同时,智源研究院就CCI4.0的发布进行了安全合规评审,确保CCI4.0数据集开源到公共平台时,满足安全合规所必须的条件。
三、未来工作计划
接下来,智源研究院将持续开展中文预训练语料库建设,不断提升语料库质量,扩展语料库的语言和内容覆盖度,助力我国大模型产业发展。