TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

UnknownBody

已于 2023-07-04 18:50:17 修改

阅读量1.5k

点赞数 1

文章标签：语言模型人工智能自然语言处理

于 2023-07-04 18:38:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/131534885

版权

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文是LLM系列的文章之一，针对《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?》的翻译。

TinyStories：语言模型能有多小，还能说连贯的英语？

摘要
1 引言
2 TinyStories数据集的描述
- 2.1 TinyStories-Instruct：数据集的指令跟随变体
3 GPT评估：一个评估在TinyStores上训练的模型的框架
- 3.1 从我们的评估方法中得出的第一个见解
4 在TinyStories上训练的小模型的性能
5 解释性
- 5.1 解释不同注意力头的作用
- 5.2 解释不同神经元的作用
6 用TinyStories探索NLP的结构和超参数
7 相关工作
8 结论

摘要

语言模型（LM）是自然语言处理的强大工具，但当它们很小的时候，往往很难产生连贯流畅的文本。具有大约125M个参数的模型，如GPTNeo（小）或GPT-2（小），即使经过广泛的训练，也很少能生成几个单词之外的连贯一致的英语文本。这就提出了一个问题，即产生连贯英语文本的能力的出现是否只发生在更大的规模（具有数亿个或更多的参数）和复杂的架构（具有多个层次的全局关注）上。
在这项工作中，我们介绍了TinyStores，这是一个由GPT-3.5和GPT-4生成的短篇小说合成数据集，只包含典型的3至4岁儿童通常理解的单词。我们证明，TinyStories可以用于训练和评估比最先进的模型小得多的LMs（总参数低于1000万），或者具有更简单的架构（只有一个transformer块），但仍然可以产生流畅一致的故事，其中有几个不同的段落，具有几乎完美的语法，并展示推理能力。
我们还介绍了一种评估语言模型的新范式：我们提出了一个框架

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。