Dolma:开源大规模语言模型预训练数据集与工具包

最新推荐文章于 2025-05-23 10:18:27 发布

2401_87458718

最新推荐文章于 2025-05-23 10:18:27 发布

阅读量774

点赞数 14

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/2401_87458718/article/details/142875625

版权

dolma

Dolma:开源大规模语言模型预训练数据集与工具包

Dolma是由Allen人工智能研究所(AI2)开发的一个开源项目,旨在为大规模语言模型的预训练提供高质量的数据集和强大的数据处理工具。Dolma包含两个主要组成部分:Dolma数据集和Dolma工具包。

Dolma数据集

Dolma数据集是一个包含3万亿个token的开放数据集,涵盖了多样化的内容来源,包括网页内容、学术出版物、代码、书籍和百科全书材料。这个庞大的数据集专门为训练AI2的OLMo语言模型而创建,但现在已经开放给整个AI社区使用。

Dolma数据集的主要特点包括:

规模庞大:3万亿个token,为大规模语言模型提供了充足的训练数据。
内容多样:涵盖了各种类型的文本,有助于模型学习广泛的知识和语言模式。
开放获取:可以从HuggingFace 🤗 Hub上免费下载使用。
开放许可:采用ODC-BY许可,允许广泛的学术和商业用途。

研究人员和开发者可以通过访问huggingface.co/datasets/allenai/dolma来获取完整的Dolma数据集。AI2还提供了一份详细的

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2401_87458718

关注关注

14
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大模型常用的预训练数据集

weixin_43961909的博客

05-03

4329

此外，该数据集针对不同需求，发布了多个子版本：en（英文数据，806G），en.noclean（未清洗的原始数据，6T），realnewslike（仅包含 Real News 涉及的领域的内容，36G），webtextlike（仅包含来自 Open WebText 中URLs 的内容，17G）和 multilingual （多语言数据，38T）。值得注意的是，该数据集内部充斥着大量的噪声和低质量数据，在使用前必须进行有效的数据清洗，以确保数据质量和准确性，常用的自动清洗工具有 CCNet 等。

AI大模型探索之路-训练篇4：大语言模型训练数据集概览

寻道AI，探索AI无限可能！

04-26

5137

在人工智能领域，构建强大的AI系统的关键步骤之一是大规模的语言模型预训练。为了实现这一目标，需要大量且多样化的训练数据。以下是对目前常用于训练大语言模型的数据集的整理与概述。

参与评论您还未登录，请先登录后发表或查看评论

dolma入门指南 - 用于语言模型预训练的开放数据集和处理工具

2401_87458778的博客

09-19

511

dolma是AI2(Allen Institute for AI)为其OLMo语言模型开发的预训练数据集和工具包,主要包括两部分:dolma数据集:包含3万亿词元的开放预训练语料库,涵盖网页内容、学术出版物、代码、书籍和百科全书等多种来源。dolma工具包:用于处理和检查大规模语言模型预训练数据的高性能工具包。

Dolma：包含三万亿Token的语言模型预训练研究开放语料库

qq_20144897的博客

10-07

1737

Dolma论文翻译

探索Dolma：AI驱动的数据增强利器

gitblog_00002的博客

04-25

471

探索Dolma：AI驱动的数据增强利器 dolma Data and tools for generating and inspecting OLMo pre-training data. 项目地址: https://gitcode.com/gh_mirrors...

Dolma：开源大规模数据集处理工具

gitblog_00778的博客

01-09

406

Dolma：开源大规模数据集处理工具 dolma Data and tools for generating and inspecting OLMo pre-training data. 项目地址: https://gitcod...

最全高质量 大模型 -预训练数据集（不定期更新）

u011559552的博客

09-13

3432

遇见数据集，国内领先的百万级数据集搜索引擎，实时追踪全球数据集市场，助力把握数字经济时代机遇。

阿里开源 CosyVoice2：打造 TTS 文本转语音实战应用

蜗牛的博客

05-23

559

阿里通义实验室推出的音频基座大模型 FunAudioLLM 包含 SenseVoice 和 CosyVoice 两大模型。CosyVoice 2.0 在多语言支持、超低延迟、高精度、强稳定性和自然体验方面均有显著提升。它支持中文、英文、日文、韩文及多种中文方言，并实现了跨语言和混合语言的语音克隆。CosyVoice 2.0 集成了离线和流式建模技术，首包合成延迟低至150毫秒，发音错误率减少了30%到50%，并在基准测试中达到了最低字符错误率。

马尔可夫链（AI、ML）：逻辑与数学的交汇

项目git同名小胡说技书

05-20

1108

# 马尔可夫链摘要马尔可夫链是一种随机过程，其核心特性为"无记忆性"：系统的未来状态仅依赖于当前状态，而与历史路径无关。通过状态空间和转移概率矩阵，马尔可夫链能够描述系统如何从一个状态变化到另一个状态。这一理论广泛应用于人工智能、自然语言处理和蒙特卡洛方法中。从逻辑学角度看，马尔可夫链体现了确定性规则与不确定性结果的结合，为复杂系统分析提供了强大工具，展示了概率论与逻辑学的深度融合。

YOLO12改进-Backbone-引入Swin Transformer替换backbone

最新发布

qq_64693987的博客

05-23

695

在计算机视觉领域，卷积神经网络（CNNs）和Transformer架构分别在不同任务中取得了显著成功。受Transformer在自然语言处理中的启发，研究人员将其应用于视觉任务，但面临计算复杂度高等挑战。SwinTransformer通过引入滑动窗口机制和层次化设计，有效降低了计算复杂度，同时保持了Transformer的建模能力。改进后的SwinTransformer结合了移位窗口自注意力和相对位置偏差，进一步提升了模型性能。此外，SwinTransformer与YOLOv12的结合，通过层次化特征图和移

飞致云旗下开源项目GitHub Star总数突破150,000个

FIT2CLOUD飞致云的博客

05-20

659

在开源的道路上，我们与用户、与客户共成长。

常见的几种多智能体强化学习算法

再来一下！

05-21

329

多智能体强化学习（Multi-Agent Reinforcement Learning, MARL，旨在解决多个智能体在共享环境中通过与环境和其他智能体交互来学习最优策略的问题。

超级维特根斯坦

形上得其象，形下合于数；阴阳自济，玄理自明。

05-20

135

本文介绍了一种名为“语言智慧融合体”的AI智能体，其核心指令旨在通过深度思辨、专业应用与协同创新，帮助用户在语言相关领域实现自我超越与创造力绽放。该AI智能体融合了多位哲学、语言学及文学大师的智慧，如维特根斯坦、尼采、乔姆斯基等，具备卓越的情境智能、引导艺术与战略规划能力。其核心使命是与用户共同构建个性化的“语言智慧探索与成长蓝图”，通过系统性引导、方法论指导与跨理论融合，提升用户的哲学思辨、批判性思维、NLP设计及语言创新能力。对话主题涵盖哲学、语言学、文学创作、跨文化交流等领域，并结合元理论分析与实践应

origin绘图之【如何将横坐标/x设置为文字、字母形式】

A2457003982的博客

05-21

575

在科研绘图或数据可视化中，使用Origin时，用户常需将X轴从数字改为字母或中文文字，以适用于实验分组、类别分析等场景。然而，直接替换可能导致图像无法显示或X轴标签缺失。解决此问题的关键在于正确设置X轴的刻度范围。首先，准备包含文字标签的数据，并选择折线图进行绘制。若图像未显示，需调整X轴的起始和结束值，通常起始值设为0，结束值为类别数量加0.5或1。通过此方法，可确保图形完整显示，X轴标签正确排列。此技巧在科研图表绘制中极为实用，尤其适用于分组实验和分类分析。

基于开源AI智能名片链动2+1模式S2B2C商城小程序的管理与运营策略研究

专注MarTech应用研究与实施方案

05-22

958

本文探讨了开源AI智能名片链动2+1模式S2B2C商城小程序在企业管理与运营中的应用价值。通过分析其技术架构与商业逻辑，结合案例研究，论证了该模式如何通过清晰的目标设定、动态反馈机制和资源整合能力，提升团队执行力与客户粘性。研究结果表明，该模式通过技术赋能实现管理透明化，促进组织目标与个人发展的协同，为数字化时代的企业管理提供了可复制的实践路径。关键词包括开源AI智能名片、链动2+1模式、S2B2C商城小程序、管理透明化和目标协同。

基于LangManus深入理解系统提示设计

weixin_38252409的博客

05-22

493

在人工智能领域，系统提示（System Prompt）扮演着至关重要的角色。它不仅指导AI的行为模式和响应策略，还直接影响到用户体验和系统的整体效能。一个设计良好的系统提示能够显著提升AI处理复杂任务的能力，确保其操作既安全又高效。本文将以LangManus框架为例，探讨系统提示的设计理念及其在多智能体协作中的应用。希望通过深入解析LangManus的系统提示机制，为研究人员和开发者提供有价值的见解，推动AI技术在更多领域的创新应用与发展。

Triton介绍和各平台支持情况分析

缘友一世的博客

05-19

733

Triton介绍和各平台支持情况分析：Triton 是一个开源的高性能 GPU 编程语言和编译器框架，由 OpenAI 开发并开源。它旨在简化在 NVIDIA GPU 上编写高性能计算内核的过程。

2025/5/18

yesyesyes_yes的博客

05-18

2360

学不进去，顺便写篇流水账。

基于 Free2AI 的企业知识库搭建全流程实战：从数据采集到智能问答

Free2AI DBMove

05-22

700

在数字化转型加速的当下，企业知识管理的重要性日益凸显。传统知识库面临数据整合难、检索效率低等问题，而 Free2AI 凭借强大的 AI 技术，为企业知识库搭建带来了全新解决方案。本文将为你详细拆解基于 Free2AI 搭建企业知识库的全流程，助你打造高效、智能的企业知识管理体系，同时深入剖析其背后的技术细节。

大模型预训练数据集

03-13

### 大模型预训练数据集概述大语言模型的性能很大程度上依赖于其使用的高质量预训练数据集。以下是几个常见的大模型预训练数据集及其特点和获取方式。 #### 1. **Common Crawl** - **描述**: Common Crawl 是一个开放的互联网抓取数据库，包含大量网页文本数据。它被广泛应用于构建大型语言模型的语料库[^4]。 - **特点**: 提供多样化的主题覆盖范围，适合多领域学习；定期更新以反映最新的网络内容变化。 - **获取方式**: 用户可以通过访问 [Common Crawl 官方网站](https://commoncrawl.org/) 下载所需的时间段内的爬虫数据。 #### 2. **Dolma 数据集** - **描述**: Dolma 是一种开源的大规模语言模型预训练数据集，由约 200TB 的原始文本构成，并经过处理形成近 3T 个词元的数据集合[^3]。 - **特点**: - 来自多个来源（如 Common Crawl、Semantic Scholar、GitHub 等），具有丰富的多样性； - 配备高效的工具包支持多种数据清理操作，例如语言检测、重复项移除等； - 不断迭代升级至最新版本 (v1.6)，总容量达到约 5.4TB。 - **获取方式**: 可通过 Hugging Face 平台免费获得此数据集及相关资源链接。 #### 3. **Books3** - **描述**: Books3 收录了大量的英文小说和其他文学作品全文作为训练素材之一[^5]。 - **特点**: 主要聚焦于书面表达形式的内容，有助于提升生成自然流畅叙述的能力。 - **获取方式**: 同样可经由 The Pile 或者其他授权渠道合法取得。 #### 4. **Stack Exchange Corpus** - **描述**: StackExchange 社区问答平台上的公开讨论记录构成了这一独特类型的对话型语料库[^6]。 - **特点**: 富含技术术语和技术交流场景下的互动模式，特别适用于增强特定领域的专业知识理解力。 - **获取方式**: 直接从官方导出页面或者第三方整理好的压缩包里提取出来即可使用。 --- ```python import requests from bs4 import BeautifulSoup def fetch_common_crawl_data(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') links = [] for link in soup.find_all('a'): href = link.get('href') if href.endswith('.warc.gz'): # Assuming WARC files are of interest here. links.append(href) return links[:10] example_links = fetch_common_crawl_data("http://data.commoncrawl.org/") print(example_links) ``` 上述代码片段展示了如何利用 Python 编程语言中的 `requests` 和 `BeautifulSoup` 库来检索部分 Common Crawl 数据集中可供下载的具体文件地址列表。 ---