TinyStories如何四两拨千斤?

公众号/视频号/小红书/微博     :人工智能技术派
人工智能技术派(AITECH)成员:hws

  • 一种模型优化技术:论文以用小模型生成英语故事为切入点,探讨大模型在垂直领域落地的一种可行方案

背景介绍

        像GPT系列这样的大模型,在内容生成、图文翻译、代码补全、问答系统、机器翻译、自动评论等众多场景都表现非常惊艳,但动辄上千亿的巨量参数,单次训练成百上千万美金,小的团队及个人并没有训练部署能力,高昂的生成成本让很多使用者望而却步。但有些业务场景只需要用到大模型某方面能力,就像故事机厂商,只需要产品(如火火兔)会讲故事,但现在的故事机都是播放录音。试想如果每个宝宝都拥有一个能像GPT一样创作故事的火火兔,是一件多么酷炫的事!TinyStories证明了这种设想的可行性。

方案阐述

        先简单说明一下:TinyStories并不是一个新的算法或者模型结构,它所有的训练数据都是基于GPT生成的,训练模型架构基于开源的GPT-Neo(参: 手撕GPT-Neo源码),已经在Huggingface提供了TinyStories-1M/3M/9M/28M/33M*等不同制度的模型,所以,TinyStories并没有技术上的创新。论文以满足大模型在“儿童故事生成”这一特定领域的应用为切入点进行阐述,主要工作可以围绕训练数据集构建和结果评测两个方面。

构建训练数据集

        TinyStories训练语料由GPT3.5和GPT4生成,对生成任务做如下限定:1)只用3岁儿童可以理解的词汇生成;2)按照英语短篇故事的叙述方式生成;3)保证语料多样性。

        “如何保证语料多样性”是一个比较有挑战性的工作,因为即使temperature值设的非常高,仍然会产生大量重复的内容,那么论文是怎么解决这一问题的喃?研究人员构建一个包含1500个词的词汇表,并按照动词、名词、形容词分为3个类别,调用GPT生成故事时,必须用到词汇表里的1个动词、1个名词、1个形容词,该方法极大增加了语料多样性。同时,为每个故事打上标签,如包含对话、情节比较曲折、结局比较惨或涉及道德价值观等,如下图示例:

构建指令微调数据集

        所谓指令模式(Instruct),就是模型系统按照一定的指令生成文本,如下:

        所以,模型不仅仅具备续写能力,在只提供关键词、写作指导、摘要等信息时,模型也能够遵循指令进行写作。要让模型具备这个能力是非常困难的,因为模型首先要理解要求的意思,然后再进行创作。为此,论文基于GPT-3构建了一个指令微调数据集。在调用GPT时,prompt要求GPT在生成故事的同时给出4个方面的信息:1)这个故事包含单词列表(包含的动词、名词、形容词);2)对这个故事进行概括,提取出包含的信息:对话、解决比较惨、涉及伦理德、故事比较曲折、有伏笔、有冲突等;3)列出故事中必须出现的句子;4)用一两行话对这个故事内容进行简短的概括。 其中编号1、2的信息是已知的,编号3从故事中随机抽取一句即可,编号4的内容由GPT-3生成。

        最终生成微调数据集示例如下:

模型效果评估框架(GPT-Eval)

        为评估基于TinyStories方案生产模型效果,研究人员给出开发了一个专门的效果评估框架(GPT-Eval),该框架是基于GPT-4,下图展示了具体过程。

    • 第1步:用训练好的TinyStories模型将故事填充完成
    • 第2步:用GPT-4对TinyStories填充后的故事进行详细评价
    • 地3步:GPT-4对TinyStories填充内容给出具体的得分

基于GPT-Eval,论文给出了TinyStories模型生成效果,从下图可以看出:

  • 创造性受模型规模影响比较大,TinyStories在创造性方面表现并不是特别好
  • 在语法和一致性(上下文一致性)方面TinyStories表现非常不错

归纳总结

        论文提供了大模型在垂直领域落地的一种可行方案,总体来看10~80M级别的模型能在生成故事这种任务上达到非常不错的效果。虽然与GPT-4有还有差距(特别是创造性方面),但比模型规模更大的GPT-2-*相比,效果还是非常惊艳的,参下图。

参考文献

  • 30
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值