
500G!BAAI发布高质量预训练中文语料库CCI3.0-HQ
北京人工智能研究院(BAAI)发布了500GB高质量的中文语料库CCI3.0-HQ,它是中文互联网语料库3.0(CCI3.0)的子集,通过两阶段混合过滤,显著提高了数据质量。为了评估有效性,在各种数据集上从头开始训练了一个0.5B参数模型,使用100B个token,在零样本设置下,在10个基准测试中取得了比CCI3.0、SkyPile和WanjuanV1更优越的性能。(2.2)做训练数据。总体性能:在总体平均值方面,FineWeb-edu以0.350的得分保持了轻微的优势,超过了DCLM的0.348。















