中文互联网语料库CCI 2.0开放，打造大模型数据“共建-共享”新模式

本文链接：https://blog.csdn.net/eagleofstar/article/details/138721162

4月26日，中关村论坛年会数据安全治理与发展论坛在北京成功举办，该论坛由国家互联网信息办公室、北京市人民政府主办，国家互联网信息办公室网络数据管理局、北京市互联网信息办公室、北京市经济和信息化局、北京市政务服务和数据管理局、北京市商务局、海淀区人民政府、大兴国际机场临空经济区（大兴）管理委员会共同承办。在论坛上，智源研究院正式发布了中文互联网语料库CCI 2.0（Chinese Corpora Internet，简称 CCI），规模约 500G，涵盖1.25亿个网页。

数据集下载地址：

数据集国内平台下载：

http://open.flopsera.com/flopsera-open/details/BAAI-CCI2
HuggingFace下载：

https://huggingface.co/datasets/BAAI/CCI2-Data

严格的数据处理方式

为保障“中文互联网语料库CCI 2.0”的合规性和高质量，智源研究院对总量为8TB的原始互联网数据进行了严格的清洗、过滤等处理。

高质量筛选。CCI 1.0数据集是对1000个可信站源进行十分严格的筛选而形成的100G高质量可信数据集。本次，在此基础上进一步放宽可信站源范围，对总量8TB的原始互联网数据进行筛选，形成了更大的CCI 2.0高质量可信数据集。
格式清洗。按照严格制定的格式规范，对原始数据进行去除表情符号、去除控制字符与特殊字符、去除个人隐私等处理。
安全过滤。采用安全过滤模型对去重后的数据进行安全过滤，对涉及政治、色情、违禁品等负面信息进行过滤，提升数据的安全性。

打造“共建-共享”合作机制，持续推动高质量语料的迭代更新

为了推动产业持续贡献、共建高质量人工智能数据集，在中国网络空间安全协会人工智能安全治理工作委员会的指导下，智源研究院联合多家企业单位成立数据集工作小组，打造了“贡献—共享”的数据运营方式。

同时，智源研究院联同京能数字产业有限公司，搭建了首个数据集“共建-共享”平台，数据贡献单位通过贡献的数据集数量和质量，获得评定的积分，然后通过该平台以积分兑换方式进行数据集下载。同时，智源研究院牵头组织数据集工作组制定了文本语料共享清洗过滤规范，建立了内容清洗过滤规则共享机制。

图注：智源研究院牵头建设的数据集“共建-共享”平台

1. 制定数据“共建-共享”积分机制，推动数据集工作组可持续发展

智源研究院与数据集工作组成员单位共同探讨并制定了数据“贡献-共享”积分机制，对贡献数据的20余家单位进行初步评分，对普通互联网数据、稀缺数据进行分类评价，涵盖格式合规、来源可信、覆盖站源等评分维度。

2. 搭建数据集“共建-共享”平台，推动数据集积分机制落地实施

基于数据“贡献-共享”积分机制，智源研究院开发搭建了数据集“共建-共享”平台，完成了包括智源研究院在内的20余家数据贡献企业提供的58个数据集（超过200TB数据量）的上线。平台集成数据集检索与管理、用户管理、积分管理等功能，可支持首批数据贡献单位按照积分情况进行兑换下载。该平台面向数据贡献单位开放，实现数据集的“共建-共享”激励体系。

3. 制定文本语料共享清洗过滤规范，为高质量的中文语料库形成指引

为了进一步提高语料共享的效率和质量，在语料共享清洗方面形成统一规范和技术要求，促进人工智能行业健康发展，数据集工作组编制了《文本语料共享清洗过滤规范（征求意见稿）》，以指导工作组成员单位在大模型训练中开展文本语料的共享清洗过滤。该规范包括范围、规范性引用文件、术语和定义、概述、语料共享文件要求、信源过滤、格式清洗、内容过滤和数据去重等九部分内容。

4. 共同打造数据过滤与治理标准，形成语料数据共治模式

为了共同打造数据过滤与治理标准，形成语料内容清洗过滤规则，工作组建设了内容清洗过滤规则的共享机制，各单位共享过滤规则，进行数据过滤，形成语料数据共治模式。工作组编制了《内容清洗过滤规则评分方法（草案）》，综合工作组成员单位贡献数据过滤规则的数据规模与数据质量，用于对各单位的贡献度进行评价。

5. 推动行业专用数据集建设，支撑重点行业智能化升级

在此次论坛上，智源研究院还发布了由数据集工作组成员单位杭州医策科技有限公司牵头构建的医疗行业数据集MDH-Patho，该数据集是病理领域的图像数据集，总量达58000+图片，约15GB。包含细胞病理、免疫组化病理、组织病理的病灶级图像块数据，均已进行脱敏操作。时间跨度为2021年4月至2023年12月。细胞病理数据占比约23%，免疫组化病理数据占比约20%，组织病理占比约57%，可用于病理图像等方面研究。

MDH-Patho 数据集下载地址：

http://open.flopsera.com/flopsera-open/details/ycylsjj

未来工作

数据是生成式人工智能发展的重要生产要素，数据的质量与安全也是下游人工智能模型的性能与应用安全性的决定性因素之一。智源研究院将持续与多家单位共同为中文领域增添更多高质量、符合安全要求的数据集。一方面联合共建单位扩充数据来源，另一方面创新数据处理方法与流程，提升数据清洗与过滤的效率和可靠性。欢迎学界专家与业界同仁加入共建共享行列，一同打造生成式人工智能的压舱石。

作为非营利研究机构，智源研究院秉承开源开放精神，持续推动中国高质量中文数据资源的有效利用。我们致力于加速数据处理标准、技术、工具以及支持平台的研发，以提升数据处理的效率和质量，已经开放的主要成果包括：

2021年，智源推出全球最大语料库WUDAO copora，开放200GB高质量低风险中文语料，由400余个产学研单位合作，已有770多个研发团队申请，为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务，有效支撑全球大模型相关研究。
2023年6月，开放最大规模、可商用、持续更新的中文开源指令数据集COIG，由来自全球40余个机构的100多名工程师共同参与，创造了跨越国界、紧密合作的全球数据开源成果。
2023年9月，开源全球最大的中英文文本对语义向量模型训练数据集MTP（massive text pairs），数据规模达3亿对（其中中文1亿，英文2亿）。文本主题丰富，源自海量优质文本数据，涉及搜索、社区问答、百科常识、科技文献等多种主题。由该数据集训练得到的语义向量模型BGE (BAAI General Embedding) 性能大幅领先同类别模型。
2023年11月，开源高质量、高可信中文互联网语料库CCI 1.0，规模为 104GB。数据集总体的时间跨度为2001年1月至2023年11月。