大模型理论基础4

最新推荐文章于 2024-07-09 08:44:41 发布

Autumn—snow

最新推荐文章于 2024-07-09 08:44:41 发布

阅读量418

点赞数 10

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Autumn_snow/article/details/135738291

版权

大模型数据

大语言模型背后的数据

为了实现高度的能力（如语言和世界知识），这些文本应涵盖广泛的领域、类型、语言等。

WebText和OpenWebText数据集

WebText数据集被用于训练GPT-2模型
可以利用OpenWebText来进行一些原本需要WebText数据集的实验和研究

Colossal Clean Crawled Corpus（C4）

C4语料库被用来训练T5模型

Benchmark的数据污染问题

若基准数据在模型的训练数据中出现过，基准性能就可能会产生偏差。
一般而言，在机器学习中，保证训练数据和测试数据的分离（我们称之为数据卫生）相对容易。
但对于大型语言模型，训练数据和基准数据都源自互联网，要事先保证它们的完全分离就显得有些困难。

GPT-3的数据集

GPT-3的数据集主要源自Common Crawl，而Common Crawl又类似于一个参考数据集——WebText

The Pile数据集

The Pile数据集包含了825GB的英文文本，由22个高质量数据集组成。
当用这个数据集训练GPT-2Pile（1.5B参数）并与用GPT-3数据集训练的GPT-3（175B参数）进行比较时，The Pile包含了大量GPT-3数据集未能很好覆盖的信息。

关注

10
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
大模型理论基础4

大模型数据大语言模型背后的数据为了实现高度的能力（如语言和世界知识），这些文本应涵盖广泛的领域、类型、语言等。WebText和OpenWebText数据集WebText数据集被用于训练GPT-2模型可以利用OpenWebText来进行一些原本需要WebText数据集的实验和研究Colossal Clean Crawled Corpus（C4）C4语料库被用来训练T5模型Benchmark的数据污染问题若基准数据在模型的训练数据中出现过，基准性能就可能会产生偏差。一般而言，在
复制链接

扫一扫

Autumn—snow CSDN认证博客专家 CSDN认证企业博客

码龄4年

50: 原创

11万+: 周排名

12万+: 总排名

2万+: 访问

: 等级

583: 积分

58: 粉丝

68: 获赞

4: 评论

69: 收藏

私信

关注

热门文章

最新评论

数据分析之数据可视化
普通网友: 博主每一篇文章都是干货呀，很实用，可以加您VX随时交流技术吗？感谢
2021-03-29
Autumn—snow: 谢谢
2021-03-29
盼盼编程: 写的不错!

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。