ChatGPT 速通手册——GPT 训练数据集介绍

GPT 训练数据集介绍

所有人工智能算法都会分为训练和推理两步。算法的效果好坏,很大程度上取决于训练数据本身的质量。ChatGPT 所用的训练数据,openai 公司没有单独公布过细节。不过考虑到 ChatGPT 是在前序 GPT 算法基础上发展而来,我们可以侧面分析 GPT-3 的训练数据集情况。

人工智能领域知名人士 Alan D. Thompson 博士发表过一篇文章,介绍在大语言模型领域目前常用的数据集情况。其中根据 openai 论文公开的 token 数据情况,推测了 GPT-3 所用训练数据集大小一共有 753.4GB。具体分布如下:

  • 维基百科: 11.4GB。维基百科是世界著名的免费、多语种、在线百科全书,有超过 30 万名志愿者在贡献内容。一般参与训练的是其中的英文版部分,包括 662 万篇文章,超过 42 亿个单词。这其中传记类占 27.8%,地理类占17.7%,文化艺术类占15.8%,历史类占9.9%,生物医学占7.8%,体育类占6.5%,工商类占4.8%,理工和数学占3.5%。
  • Gutenberg Book:21GB。古腾堡书籍语料库,是电子书发明人 Michael Hart 创建的项目,也是世界上第一个免费电子书网站。网站收录了各种语言文字的书籍,有 12 种语言收录超过 50 本,中文书籍有 500 本,不过基本都是古籍。一般用于训练的是语料库中精选的 SPGC 版本。因为是在线网站,我们可以直接看到按日排列的前一百名书籍清单。比如 2023 年 3 月 10 日,排名第一个的书籍为莎士比亚的《罗密欧与朱丽叶》,而前 100 名中唯一的中文书籍,很巧合正是第 88 名汤显祖的《牡丹亭》。
  • Bibliotik Journey:101GB。Bib 是互联网最大的电子书站点&
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云哲-吉吉2021

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值