大模型学习笔记05——大模型的数据_大模型会将学习之后的数据是什么样的-CSDN博客

本文探讨了大模型训练中使用的数据来源及其问题，强调了数据集的代表性、不平衡性以及数据污染。着重介绍了BigScience项目的数据治理框架，提倡负责任地策划数据以减少偏见。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型学习笔记05——大模型的数据

对于大模型来说，训练数据就是“原始文本”

大语言模型背后的数据

大型语言模型是在"原始文本"上进行训练的。为了实现高度的能力（如语言和世界知识），这些文本应涵盖广泛的领域、类型、语言等。
数据来源：网络和大公司私有数据
丰富的网络数据中存在的问题
- 大规模数据在全球人口中的代表性仍然不均衡。
- 网络数据过多地代表了来自发达国家的年轻用户。
- GPT-2的训练数据基于Reddit，根据皮尤互联网研究的2016年调查，美国Reddit用户中有67%是男性，64%的年龄在18到29岁之间。
- 维基百科的编者中只有8.8-15%是女性。
- 网络上的骚扰可能会让某些人群（如跨性别者、神经发育不同的人）产生排斥感。
- 过滤"不良词汇"可能进一步边缘化某些人群（如LGBT+）。因此，我们的结论是：理解和记录用于训练大型语言模型的数据集的组成是至关重要的。
Common Crawl：从网络上爬取数据，并免费给公众提供快照
WebText：从Common Crawl选取，创建WebText的过程包括：抓取至少获得3个赞的所有外链，过滤掉维基百科以便在基于维基百科的基准测试中进行评估，最终得到了40GB的文本。openai训练GPT-2数据，未公开
OpenWebText：按照WebText的方式复现
Colossal Clean Crawled Corpus(C4)：训练T5模型，从2019年4月的Common Crawl快照（1.4万亿个标记）开始，移除了“bad words”，移除了代码（“{”），通过langdetect过滤掉了非英语文本，最终得到了806GB的文本（1560亿个标记）。
Benchmark的数据污染问题：对于大型语言模型，训练数据和基准数据都源自互联网