dolma入门指南 - 用于语言模型预训练的开放数据集和处理工具

dolma简介

dolma是AI2(Allen Institute for AI)为其OLMo语言模型开发的预训练数据集和工具包,主要包括两部分:

  1. dolma数据集:包含3万亿词元的开放预训练语料库,涵盖网页内容、学术出版物、代码、书籍和百科全书等多种来源。

  2. dolma工具包:用于处理和检查大规模语言模型预训练数据的高性能工具包。

dolma数据集

dolma数据集是一个包含3万亿词元的开放语料库,可在Hugging Face上免费获取: https://huggingface.co/datasets/allenai/dolma

数据集采用ODC-BY许可发布,更多信息可参考官方博客文章

如需了解更多细节,可查看数据集说明文档

dolma工具包

dolma工具包是一个强大的数据处理工具,主要用于处理大规模语言模型预训练数据。其主要特性包括:

  1. 高性能:支持并行处理数十亿文档
  2. 可移植性:可在单机、集群或云环境中使用
  3. 内置标记器:包含常用的数据处理标记器
  4. 快速去重:使用Rust实现的Bloom过滤器进行文档去重
  5. 可扩展性:支持自定义标记器和兼容AWS S3的存储位置

安装

可通过pip安装dolma工具包:

pip install dolma

使用方法

dolma工具包的详细使用说明可参考官方文档

引用

如使用dolma数据集或工具包,请引用以下论文:

@article{dolma,
  title = {{Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research}},
  author={Luca Soldaini and Rodney Kinney and Akshita Bhagia and Dustin Schwenk and David Atkinson and Russell Authur and Ben Bogin and Khyathi Chandu and Jennifer Dumas and Yanai Elazar and Valentin Hofmann and Ananya Harsh Jha and Sachin Kumar and Li Lucy and Xinxi Lyu and Nathan Lambert and Ian Magnusson and Jacob Morrison and Niklas Muennighoff and Aakanksha Naik and Crystal Nam and Matthew E. Peters and Abhilasha Ravichander and Kyle Richardson and Zejiang Shen and Emma Strubell and Nishant Subramani and Oyvind Tafjord and Pete Walsh and Luke Zettlemoyer and Noah A. Smith and Hannaneh Hajishirzi and Iz Beltagy and Dirk Groeneveld and Jesse Dodge and Kyle Lo},
  year={2024},
  journal={arXiv preprint},
  url={https://arxiv.org/abs/2402.00159}
}

dolma为语言模型预训练提供了宝贵的开放资源,欢迎研究人员和开发者使用并为其做出贡献!

文章链接:www.dongaigc.com/a/dolma-guide-open-datasets-tools
https://www.dongaigc.com/a/dolma-guide-open-datasets-tools

### 大模型预训练数据集概述 大语言模型的性能很大程度上依赖于其使用的高质量预训练数据集。以下是几个常见的大模型预训练数据集及其特点获取方式。 #### 1. **Common Crawl** - **描述**: Common Crawl 是一个开放的互联网抓取数据库,包含大量网页文本数据。它被广泛应用于构建大型语言模型的语料库[^4]。 - **特点**: 提供多样化的主题覆盖范围,适合多领域学习;定期更新以反映最新的网络内容变化。 - **获取方式**: 用户可以通过访问 [Common Crawl 官方网站](https://commoncrawl.org/) 下载所需的时间段内的爬虫数据。 #### 2. **Dolma 数据集** - **描述**: Dolma 是一种开源的大规模语言模型预训练数据集,由约 200TB 的原始文本构成,并经过处理形成近 3T 个词元的数据集合[^3]。 - **特点**: - 来自多个来源(如 Common Crawl、Semantic Scholar、GitHub 等),具有丰富的多样性; - 配备高效的工具包支持多种数据清理操作,例如语言检测、重复项移除等; - 不断迭代升级至最新版本 (v1.6),总容量达到约 5.4TB。 - **获取方式**: 可通过 Hugging Face 平台免费获得此数据集及相关资源链接。 #### 3. **Books3** - **描述**: Books3 收录了大量的英文小说其他文学作品全文作为训练素材之一[^5]。 - **特点**: 主要聚焦于书面表达形式的内容,有助于提升生成自然流畅叙述的能力。 - **获取方式**: 同样可经由 The Pile 或者其他授权渠道合法取得。 #### 4. **Stack Exchange Corpus** - **描述**: StackExchange 社区问答平台上的公开讨论记录构成了这一独特类型的对话型语料库[^6]。 - **特点**: 富含技术术语技术交流场景下的互动模式,特别适用于增强特定领域的专业知识理解力。 - **获取方式**: 直接从官方导出页面或者第三方整理好的压缩包里提取出来即可使用。 --- ```python import requests from bs4 import BeautifulSoup def fetch_common_crawl_data(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') links = [] for link in soup.find_all('a'): href = link.get('href') if href.endswith('.warc.gz'): # Assuming WARC files are of interest here. links.append(href) return links[:10] example_links = fetch_common_crawl_data("http://data.commoncrawl.org/") print(example_links) ``` 上述代码片段展示了如何利用 Python 编程语言中的 `requests` `BeautifulSoup` 库来检索部分 Common Crawl 数据集中可供下载的具体文件地址列表。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值