【斯坦福cs324w】中译版 大模型学习笔记四 LLM的数据

本文探讨了大语言模型背后的关键数据集,如WebText、OpenWebText、C4等,揭示了数据覆盖、代表性问题以及数据污染挑战。GPT-3和ThePile展示了处理方法,强调了数据生态中的数据治理、数据尊严和数据联盟的重要性。
摘要由CSDN通过智能技术生成

大数据


训练数据就是“原始文本”?
怎么解释?模型预训练过程需要大量数据,这些数据是无标注的,就是网络中的原始文本。在测试过程中,为了测试llm的语言能力,其使用的数据也是从网络上获取到的自然语言数据,即原始文本

大语言模型背后的数据

数据覆盖范围广,不同的领域、类型、语言
通常使用的是网络数据
举个例子:Common Crawl是许多模型(如T5、GPT-3、Gopher)的标准数据源
网络数据存在的问题
在全球人口中的代表性不均衡:年轻的、发达国家的、男性、更符合大众潮流的
因而我们需要重视llm的数据集的组成

WebText和OpenWebText数据集

WebText数据集
模型:GPT-2
创建过程:从Common Crawl抓取至少获得3个赞的所有外链,过滤掉维基百科,因为模型将在维基百科的基准测试中进行评估
OpenAI未公开发布
OpenWebText数据集
创建过程:从Reddit提交的数据集中提取所有URL,使用Facebook的fastText过滤掉非英语内容,删除近乎重复的内容

Colossal Clean Crawled Corpus(C4)

创建过程:从2019年4月的Common Crawl快照开始,移除了“bad words”,移除了代码,通过langdetect过滤掉了非英语文本

Benchmark的数据污染问题

数据污染:对于llm而言,训练数据和基准数据都来自网络,很可能出现benchmark的数据出现在llm的训练数据中
在数据集创建的过程中造成的问题
数据集在从网络数据中过滤得到的过程中会出现分配损害。
举个例子,由于“不良词汇”过滤的存在,涉及边缘人群的数据更大概率上被过滤,特定的方言也更容易被过滤

GPT-3的数据集

image.png

处理数据集时,采用了模糊去重的方法,并从基准数据集中移除了数据
扩大数据来源的多样性,同时降采样Common Crawl

The Pile数据集

image.png

包含非网络的高质量数据集,如学术和专业资源

数据集文档

目的
记录在创建数据集过程中可能产生的潜在危害,如社会偏见
供数据集使用者参考了解此数据集的适用范围
记录内容
数据集的组成
数据集的收集过程记录
数据集的预处理、清晰和标记阶段的记录
数据集的适用记录
数据集应如何分发

数据生态

从更多角度来研究数据
数据治理:数据的创建,数据质量和安全性的维护
数据尊严:数据并不仅仅时个人的财产而更多的是群体的财产
举个例子:Alice和Bob都是作家。Alice免费提供写作示例,这可以被用来训练可以替代Bob的语言模型。
数据联盟:充当数据生产者和数据购买者之间的中间组织,代表数据生产者与数据购买者谈判

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值