chatGPT 背后的技术 之 GPT3

chatGPT是由openAI 公司发布的大型语言对话机器学习模型,因为其强大的功能,可以帮助编程,可以咨询问题,可以检查语法错误等等,而在最近半年火爆全网。

chatGPT 背后的技术是 GPT3.5,其本质是 大型预训练语言模型。

GPT3.5 是 在 GPT3 的 基础上进行了微调(fine-tuning),具体进行了什么微调我们在后面的文章中会介绍,今天我们先介绍GPT3.

GPT3 的详细介绍在 Language Models are Few-Shot Learners 这篇 论文中,https://arxiv.org/abs/2005.14165   点击网页链接中的Download 下的 PDF 就可以下载论文原文。

论文中的重点如下:

GPT3 的网络结构和 GPT2 是一样的(GPT2 会在后面的文章中详细介绍),但GPT3 的模型尺寸比GPT2大 两个数量级。

和GPT2的主要不同是,GPT3 使用了 Sparse Transformer。

训练的数据集进行了一些处理,增加了一些可信度高的文本的学习次数。

GPT3 可以处理多种文本相关的任务,如填词,回答问题,阅读理解等,不再需要对特性任务进行分别训练,可以认为是在通用人工智能的道路上迈出了举足轻重的一步。

GPT3 有 1750 亿个参数。

GPT3 没有进行微调(fine-tuning),就可以在很多任务中表现出很好的效果。针对任务进行微调,影响了模型的通用性,也和大模型在预训练中尽可能的吸收知识的初衷不符。这样做的原因还有就是人在学习处理大部分新的文字类任务时,并不需要接受这类任务的大量数据进行专门的训练便可完成。

大型预训练模型学习了大量技能和模式识别的能力,这些能力会在推理时识别出要完成的任务是什么。也就是说,对任务的理解是其能力的一部分。

下图展示了预训练模型是怎样能学到背景知识的。

下图展示了,无实例,单个示例,多个示例 和 训练微调(fine-tuning)的区别,GPT3 没有进行微调。

下图展示了训练所用的数据,Common Crawl 是一个抓取网络内容的存储库,数据量很大,只用了其中的44%Common Crawlhttps://commoncrawl.org/

 

图片来源:论文  Language Models are Few-Shot Learners

祖国翔,

于上海

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值