TinyStories如何四两拨千斤？

人工智能技术派

已于 2024-03-21 16:07:54 修改

阅读量905

点赞数 30

分类专栏：人工智能文章标签：人工智能语言模型

于 2024-03-19 22:36:58 首次发布

本文链接：https://blog.csdn.net/MoreSpeech/article/details/136857603

版权

人工智能专栏收录该内容

4 篇文章 0 订阅

订阅专栏

公众号/视频号/小红书/微博：人工智能技术派
人工智能技术派(AITECH)成员：hws

一种模型优化技术：论文以用小模型生成英语故事为切入点，探讨大模型在垂直领域落地的一种可行方案

背景介绍

像GPT系列这样的大模型，在内容生成、图文翻译、代码补全、问答系统、机器翻译、自动评论等众多场景都表现非常惊艳，但动辄上千亿的巨量参数，单次训练成百上千万美金，小的团队及个人并没有训练部署能力，高昂的生成成本让很多使用者望而却步。但有些业务场景只需要用到大模型某方面能力，就像故事机厂商，只需要产品(如火火兔)会讲故事，但现在的故事机都是播放录音。试想如果每个宝宝都拥有一个能像GPT一样创作故事的火火兔，是一件多么酷炫的事！TinyStories证明了这种设想的可行性。

方案阐述

先简单说明一下：TinyStories并不是一个新的算法或者模型结构，它所有的训练数据都是基于GPT生成的，训练模型架构基于开源的GPT-Neo(参: 手撕GPT-Neo源码)，已经在Huggingface提供了TinyStories-1M/3M/9M/28M/33M*等不同制度的模型，所以，TinyStories并没有技术上的创新。论文以满足大模型在“儿童故事生成”这一特定领域的应用为切入点进行阐述，主要工作可以围绕训练数据集构建和结果评测两个方面。

构建训练数据集

TinyStories训练语料由GPT3.5和GPT4生成，对生成任务做如下限定：1）只用3岁儿童可以理解的词汇生成；2）按照英语短篇故事的叙述方式生成；3）保证语料多样性。

“如何保证语料多样性”是一个比较有挑战性的工作，因为即使temperature值设的非常高，仍然会产生大量重复的内容，那么论文是怎么解决这一问题的喃？研究人员构建一个包含1500个词的词汇表，并按照动词、名词、形容词分为3个类别，调用GPT生成故事时，必须用到词汇表里的1个动词、1个名词、1个形容词，该方法极大增加了语料多样性。同时，为每个故事打上标签，如包含对话、情节比较曲折、结局比较惨或涉及道德价值观等，如下图示例：

构建指令微调数据集

所谓指令模式(Instruct)，就是模型系统按照一定的指令生成文本，如下：

所以，模型不仅仅具备续写能力，在只提供关键词、写作指导、摘要等信息时，模型也能够遵循指令进行写作。要让模型具备这个能力是非常困难的，因为模型首先要理解要求的意思，然后再进行创作。为此，论文基于GPT-3构建了一个指令微调数据集。在调用GPT时，prompt要求GPT在生成故事的同时给出4个方面的信息：1）这个故事包含单词列表(包含的动词、名词、形容词)；2）对这个故事进行概括，提取出包含的信息：对话、解决比较惨、涉及伦理德、故事比较曲折、有伏笔、有冲突等；3）列出故事中必须出现的句子；4）用一两行话对这个故事内容进行简短的概括。其中编号1、2的信息是已知的，编号3从故事中随机抽取一句即可，编号4的内容由GPT-3生成。

最终生成微调数据集示例如下：