大模型学习笔记05——大模型的数据

本文探讨了大模型训练中使用的数据来源及其问题,强调了数据集的代表性、不平衡性以及数据污染。着重介绍了BigScience项目的数据治理框架,提倡负责任地策划数据以减少偏见。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大模型学习笔记05——大模型的数据

对于大模型来说,训练数据就是“原始文本”

大语言模型背后的数据

  • 大型语言模型是在"原始文本"上进行训练的。为了实现高度的能力(如语言和世界知识),这些文本应涵盖广泛的领域、类型、语言等。
  • 数据来源:网络和大公司私有数据
  • 丰富的网络数据中存在的问题
    • 大规模数据在全球人口中的代表性仍然不均衡。
    • 网络数据过多地代表了来自发达国家的年轻用户。
    • GPT-2的训练数据基于Reddit,根据皮尤互联网研究的2016年调查,美国Reddit用户中有67%是男性,64%的年龄在18到29岁之间。
    • 维基百科的编者中只有8.8-15%是女性。
    • 网络上的骚扰可能会让某些人群(如跨性别者、神经发育不同的人)产生排斥感。
    • 过滤"不良词汇"可能进一步边缘化某些人群(如LGBT+)。 因此,我们的结论是:理解和记录用于训练大型语言模型的数据集的组成是至关重要的。
  • Common Crawl:从网络上爬取数据,并免费给公众提供快照
  • WebText:从Common Crawl选取,创建WebText的过程包括:抓取至少获得3个赞的所有外链,过滤掉维基百科以便在基于维基百科的基准测试中进行评估,最终得到了40GB的文本。openai训练GPT-2数据,未公开
  • OpenWebText:按照WebText的方式复现
  • Colossal Clean Crawled Corpus(C4):训练T5模型,从2019年4月的Common Crawl快照(1.4万亿个标记)开始,移除了“bad words”,移除了代码(“{”),通过langdetect过滤掉了非英语文本,最终得到了806GB的文本(1560亿个标记)。
  • Benchmark的数据污染问题:对于大型语言模型,训练数据和基准数据都源自互联网
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值