简介
MATHPILE:一个高质量、大规模的数学语料库,29 GB,包含约 95 亿个token。涵盖从 K-12 到大学、研究生水平和数学竞赛的内容,包括高质量教科书、讲义、科学论文等。提供详细的数据记录,包括数据集表格和质量注释,提高透明度并允许用户根据需要定制数据。
-数据来源和处理:数据最初来源于多个不同的数据源,总计大约 520 亿个令牌,占 2.2 TB 的数据量。
源数据包括 StackExchange、ProofWiki、Common Crawl、arXiv,以及其他来源。这些数据经过一系列严格的处理过程,包括数据预处理和预过滤、语言识别、清理和过滤,以及去重。
-MATHPILE 语料库:经过处理后,得到了一个以数学为中心的语料库,即 MATHPILE。这个语料库总计有 29 GB 的数据量,包含约 903,000 篇文档,以及大约 95 亿个令牌。
主要特点
1、数学领域专注:MathPile 是专门为数学领域设计的,与通用或多语言焦点的语料库有明显区别。
2、多样性:MathPile 从广泛的来源汇集数据,包括教科书(包括讲义)、arXiv、维基百科、ProofWiki、StackExchange 和网页。它涵盖了适合 K-12、大学、研究生水平和数学竞赛的数学内容。特别是ÿ