本文是LLM系列的文章之一,针对《TinyStories: How Small Can Language Models Be and Still Speak Coherent English?》的翻译。
TinyStories:语言模型能有多小,还能说连贯的英语?
摘要
语言模型(LM)是自然语言处理的强大工具,但当它们很小的时候,往往很难产生连贯流畅的文本。具有大约125M个参数的模型,如GPTNeo(小)或GPT-2(小),即使经过广泛的训练,也很少能生成几个单词之外的连贯一致的英语文本。这就提出了一个问题,即产生连贯英语文本的能力的出现是否只发生在更大的规模(具有数亿个或更多的参数)和复杂的架构(具有多个层次的全局关注)上。
在这项工作中,我们介绍了TinyStores,这是一个由GPT-3.5和GPT-4生成的短篇小说合成数据集,只包含典型的3至4岁儿童通常理解的单词。我们证明,TinyStories可以用于训练和评估比最先进的模型小得多的LMs(总参数低于1000万),或者具有更简单的架构(只有一个transformer块),但仍然可以产生流畅一致的故事,其中有几个不同的段落,具有几乎完美的语法,并展示推理能力。
我们还介绍了一种评估语言模型的新范式:我们提出了一个框架,使用GPT-4对这些模型生成的内容进行评分,就好像这些内容是学生写的故事,由(人类)老师评分一样。这种新范式克服了标准基准的缺陷,这些缺陷通常要求模型的输出非常结构化,此外,它为模型提供了多维分数,为语法、创造力和指令遵循等不同能力提供了分数。
我们希望Tin