3分钟解释GPT-3

  

3分钟解释GPT-3

  你在Twitter上看到了一些惊人的GPT-3演示(机器制作的Op-Eds,诗歌,文章,甚至是工作代码)。 但是,在这种令人难以置信的模型的幕后发生了什么? 里面是一个(简短的!)介绍。

  GPT-3是神经网络支持的语言模型。 语言模型是预测世界上存在句子的可能性的模型。 例如,语言模型可以将句子"我带狗去散步"标记为比句子"我带香蕉去散步"更可能存在(即在互联网上)。 这对于句子,短语以及更普遍的任何字符序列都是如此。

  与大多数语言模型一样,GPT-3在未标记的文本数据集(在本例中为"通用抓取")上经过了优雅的训练。 从文本中随机删除单词或短语,并且模型必须学会仅使用周围的单词作为上下文来填充单词或短语。 这是一项简单的培训任务,可生成强大而通用的模型。

  GPT-3模型架构本身是基于Transformer的神经网络。 这种体系结构大约在2到3年前变得流行,并且是流行的NLP模型BERT的基础。 从架构的角度来看,GPT-3实际上并不是很新颖! 那么,什么使它如此特别和神奇呢?

  它真的很大。 我的意思是很大。 它具有1750亿个参数,是有史以来最大的语言模型(GPT-2仅具有1.5个参数!),并且在任何语言模型的最大数据集中进行了训练。 看来,这是GPT-3如此出色的主要原因。

  这是神奇的部分。 结果,GPT-3可以做其他QQ号码拍卖平台模型无法做的事情:无需特殊调整即可执行特定任务。 您可以要求GPT-3担任翻译,程序员,诗人或著名作家,并且只需不到10个训练示例就可以做到。 该死的。

  大多数其他模型(例如BERT)都需要精巧的微调步骤,在此步骤中,您可以收集成千上万个(例如)法语-英语句子对的示例来教其如何进行翻译。 使用GPT-3,您无需执行微调步骤。 这就是它的核心。 这就是使人们对GPT-3感到兴奋的原因:无需训练数据就可以执行自定义语言任务。

  今天,GPT-3处于私人测试阶段,但是我迫不及待地想要获得它。

  有关更多信息,请访问daleonai或在Twitter上关注@dalequark。

  (本文翻译自Dale Markowitz的文章《GPT-3 Explained in Under 3Minutes》,参考:

  towardsdatascience/gpt-3-explained-in-under-2-minutes-9c977ccb172f)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值