文章目录
训练数据就是“原始文本”?
怎么解释?模型预训练过程需要大量数据,这些数据是无标注的,就是网络中的原始文本。在测试过程中,为了测试llm的语言能力,其使用的数据也是从网络上获取到的自然语言数据,即原始文本
大语言模型背后的数据
数据覆盖范围广,不同的领域、类型、语言
通常使用的是网络数据
举个例子:Common Crawl是许多模型(如T5、GPT-3、Gopher)的标准数据源
网络数据存在的问题
在全球人口中的代表性不均衡:年轻的、发达国家的、男性、更符合大众潮流的
因而我们需要重视llm的数据集的组成
WebText和OpenWebText数据集
WebText数据集
模型:GPT-2
创建过程:从Common Crawl抓取至少获得3个赞的所有外链,过滤掉维基百科,因为模型将在维基百科的基准测试中进行评估
OpenAI未公开发布
OpenWebText数据集
创建过程:从Reddit提交的数据集中提取所有URL,使用Facebook的fastText过滤掉非英语内容,删除近乎重复的内容
Colossal Clean Crawled Corpus(C4)
创建过程:从2019年4月的Common Crawl快照开始,移除了“bad words”,移除了代码,通过langdetect过滤掉了非英语文本
Benchmark的数据污染问题
数据污染:对于llm而言,训练数据和基准数据都来自网络,很可能出现benchmark的数据出现在llm的训练数据中
在数据集创建的过程中造成的问题:
数据集在从网络数据中过滤得到的过程中会出现分配损害。
举个例子,由于“不良词汇”过滤的存在,涉及边缘人群的数据更大概率上被过滤,特定的方言也更容易被过滤
GPT-3的数据集
处理数据集时,采用了模糊去重的方法,并从基准数据集中移除了数据
扩大数据来源的多样性,同时降采样Common Crawl
The Pile数据集
包含非网络的高质量数据集,如学术和专业资源
数据集文档
目的
记录在创建数据集过程中可能产生的潜在危害,如社会偏见
供数据集使用者参考了解此数据集的适用范围
记录内容
数据集的组成
数据集的收集过程记录
数据集的预处理、清晰和标记阶段的记录
数据集的适用记录
数据集应如何分发
数据生态
从更多角度来研究数据
数据治理:数据的创建,数据质量和安全性的维护
数据尊严:数据并不仅仅时个人的财产而更多的是群体的财产
举个例子:Alice和Bob都是作家。Alice免费提供写作示例,这可以被用来训练可以替代Bob的语言模型。
数据联盟:充当数据生产者和数据购买者之间的中间组织,代表数据生产者与数据购买者谈判