【斯坦福cs324w】中译版大模型学习笔记四 LLM的数据

自律版光追

已于 2023-09-17 23:21:34 修改

阅读量83

点赞数

分类专栏： # LLM 文章标签：学习笔记自然语言处理人工智能

于 2023-09-14 15:07:44 首次发布

本文链接：https://blog.csdn.net/m0_61819793/article/details/132877365

版权

LLM 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

本文探讨了大语言模型背后的关键数据集，如WebText、OpenWebText、C4等，揭示了数据覆盖、代表性问题以及数据污染挑战。GPT-3和ThePile展示了处理方法，强调了数据生态中的数据治理、数据尊严和数据联盟的重要性。

摘要由CSDN通过智能技术生成

大数据

训练数据就是“原始文本”？
怎么解释？模型预训练过程需要大量数据，这些数据是无标注的，就是网络中的原始文本。在测试过程中，为了测试llm的语言能力，其使用的数据也是从网络上获取到的自然语言数据，即原始文本

大语言模型背后的数据

数据覆盖范围广，不同的领域、类型、语言
通常使用的是网络数据
举个例子：Common Crawl是许多模型（如T5、GPT-3、Gopher）的标准数据源
网络数据存在的问题
在全球人口中的代表性不均衡：年轻的、发达国家的、男性、更符合大众潮流的
因而我们需要重视llm的数据集的组成

WebText和OpenWebText数据集

WebText数据集
模型：GPT-2
创建过程：从Common Crawl抓取至少获得3个赞的所有外链，过滤掉维基百科，因为模型将在维基百科的基准测试中进行评估
OpenAI未公开发布
OpenWebText数据集
创建过程：从Reddit提交的数据集中提取所有URL，使用Facebook的fastText过滤掉非英语内容，删除近乎重复的内容

Colossal Clean Crawled Corpus（C4）

创建过程：从2019年4月的Common Crawl快照开始，移除了“bad words”，移除了代码，通过langdetect过滤掉了非英语文本

Benchmark的数据污染问题

数据污染：对于llm而言，训练数据和基准数据都来自网络，很可能出现benchmark的数据出现在llm的训练数据中
在数据集创建的过程中造成的问题：
数据集在从网络数据中过滤得到的过程中会出现分配损害。
举个例子，由于“不良词汇”过滤的存在，涉及边缘人群的数据更大概率上被过滤，特定的方言也更容易被过滤

GPT-3的数据集

处理数据集时，采用了模糊去重的方法，并从基准数据集中移除了数据
扩大数据来源的多样性，同时降采样Common Crawl

The Pile数据集

包含非网络的高质量数据集，如学术和专业资源

数据集文档

目的
记录在创建数据集过程中可能产生的潜在危害，如社会偏见
供数据集使用者参考了解此数据集的适用范围
记录内容
数据集的组成
数据集的收集过程记录
数据集的预处理、清晰和标记阶段的记录
数据集的适用记录
数据集应如何分发

数据生态

从更多角度来研究数据
数据治理：数据的创建，数据质量和安全性的维护
数据尊严：数据并不仅仅时个人的财产而更多的是群体的财产
举个例子：Alice和Bob都是作家。Alice免费提供写作示例，这可以被用来训练可以替代Bob的语言模型。
数据联盟：充当数据生产者和数据购买者之间的中间组织，代表数据生产者与数据购买者谈判