Dolma:开源大规模语言模型预训练数据集与工具包
Dolma是由Allen人工智能研究所(AI2)开发的一个开源项目,旨在为大规模语言模型的预训练提供高质量的数据集和强大的数据处理工具。Dolma包含两个主要组成部分:Dolma数据集和Dolma工具包。
Dolma数据集
Dolma数据集是一个包含3万亿个token的开放数据集,涵盖了多样化的内容来源,包括网页内容、学术出版物、代码、书籍和百科全书材料。这个庞大的数据集专门为训练AI2的OLMo语言模型而创建,但现在已经开放给整个AI社区使用。
Dolma数据集的主要特点包括:
- 规模庞大:3万亿个token,为大规模语言模型提供了充足的训练数据。
- 内容多样:涵盖了各种类型的文本,有助于模型学习广泛的知识和语言模式。
- 开放获取:可以从HuggingFace 🤗 Hub上免费下载使用。
- 开放许可:采用ODC-BY许可,允许广泛的学术和商业用途。
研究人员和开发者可以通过访问huggingface.co/datasets/allenai/dolma来获取完整的Dolma数据集。AI2还提供了一份详细的