TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

515 篇文章 3 订阅

已下架不支持订阅

本文是LLM系列的文章之一,针对《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?》的翻译。

摘要

语言模型(LM)是自然语言处理的强大工具,但当它们很小的时候,往往很难产生连贯流畅的文本。具有大约125M个参数的模型,如GPTNeo(小)或GPT-2(小),即使经过广泛的训练,也很少能生成几个单词之外的连贯一致的英语文本。这就提出了一个问题,即产生连贯英语文本的能力的出现是否只发生在更大的规模(具有数亿个或更多的参数)和复杂的架构(具有多个层次的全局关注)上。
在这项工作中,我们介绍了TinyStores,这是一个由GPT-3.5和GPT-4生成的短篇小说合成数据集,只包含典型的3至4岁儿童通常理解的单词。我们证明,TinyStories可以用于训练和评估比最先进的模型小得多的LMs(总参数低于1000万),或者具有更简单的架构(只有一个transformer块),但仍然可以产生流畅一致的故事,其中有几个不同的段落,具有几乎完美的语法,并展示推理能力。
我们还介绍了一种评估语言模型的新范式:我们提出了一个框架,使用GPT-4对这些模型生成的内容进行评分,就好像这些内容是学生写的故事,由(人类)老师评分一样。这种新范式克服了标准基准的缺陷,这些缺陷通常要求模型的输出非常结构化,此外,它为模型提供了多维分数,为语法、创造力和指令遵循等不同能力提供了分数。
我们希望Tin

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值