ChatGPT学习系列教程(二)—chatGPT工作原理

ChatGPT的核心是一个大型语言模型,它被训练成能够理解和生成自然语言,包括词语、短语、句子和段落。这个模型使用了大量的语言数据,包括文章、书籍、新闻报道和互联网文本,以便它能够理解和回答各种主题的问题。
一、 生成步骤
用户输入一个问题,ChatGPT会分析输入并生成相关的文本或回答。
步骤如下:
1、ChatGPT首先对输入进行预处理,包括去除停用词、标点符号和其他无意义的内容,进行文本预处理
2、ChatGPT 能进行语言模型训练 和 具有自然语言理解能力
ChatGPT使用大量的语言数据来训练其语言模型,以便能够理解和生成自然语言
ChatGPT还具有自然语言理解能力,能够理解输入的自然语言并进行解析,以生成准确的回答
3、 根据输入的信息,ChatGPT将使用其语言模型生成相关的文本或回答。

二、理解 暴力穷举
穷举算法是一种最简单的一种算法,其依赖于计算机的强大计算能力来穷尽每一种可能的情况,从而达到求解的目的
在这里插入图片描述
如要生成一首诗,只知道开头的字,后面的每一个字都不断的实验,直到符合要求

诗:鹅 后面填鸡、鸭都不对,直到填鹅,正确后再继续填后面的内容

暴力穷举无法创造出语言

三、ChatGPT 工作原理
1、ChatGPT实质
chatGPT没有意识、没有欲望、没有情绪,甚至不能理解自己说了什么

实质功能:单词接龙,就是给任意长的上文,它会根据模型自己生成下文

让机器理解人类语言的一大难点在于同一个意思可以有多种不同的表达形式,
可以用一个词,也可以用一段描述,而同一个表达在不同语境中又有不同含义。

想解决这个问题,就要让机器学会各种语义关系和语法规律,这样便能明白哪些表达实际上是同一个意思。

在这里插入图片描述
对此,GPT的办法是让模型看到尽可能多、尽可能丰富的语言范例
也就是学习材料,使其有更多机会建构出想要的结果。
在这里插入图片描述
2、海量学习

GPT:G代表生成,T代表一种模型结构,P代表用举一反三的语言规律来应对无数从未见过的语言,专业名称叫预训练。
如:在鹦鹉旁边放一台电视机,把各种新闻、国产剧、国外剧、广告、综艺等内容都播给他听,让他自己学,不用人看着。

研发ChinaGPT的公司open AI之前还做过几代模型:
GPT1:2018年6月,Open AI训练了GPT1, GPT1的学习材料约5GB,这里1MB能存30到50万汉字,而1GB是1024MB,GPT1的参数是1.17亿。

GPT1在一些任务的表现上不如后来的bird ,bird也是一种生成语言模型,不同点在于GPT的学习方式是单词接龙,而bird的学习方式是完形填空。
GPT2:2019年2月,Open AI训练了GPT2,学习材料约40GB,是第一代的八倍,最大模型参数为15亿,是第一代的13倍
GPT3:2020年5月,GPT3出来,最大模型参数到了1750亿,是第二代的116倍,所使用的学习数据达到了45TB,是第二代的1125倍,其中包含了维基百科书籍。新闻、博客、帖子、代码等各种人类语言材料,被称为超大语言模型LLM

参数反映出模型大小,参数越多,模型能建构的规律就越复杂,能记忆的信息和学习的知识越多,相当于是大脑中神经突出的数量。

在这里插入图片描述
**问题:**尽管GPT拥有了海量的知识,但回答形式和内容却不受约束,因为他知道的太多了,会随意联想,他有能力回答我们的问题,但我们却很难指挥他。他就像一只脑容量超级大的鹦鹉,已经听过了海量的电视节目,会不受控制的乱说丑闻、脏话等,难以跟人类合理对话。解决的办法就是要进行规范

3、模板规范
(1)不规范问题
当用户的提问有错误时,也不应该让他顺着瞎编,而要让他指出错误。
当提问是不是的问题时,不希望他只回答是或不是,还应把原因一起回复出来。
当无法联网,GPT无法训练最新咨询数据,那么当用户问到最新咨询时,就不应该让他接着去写,而要让他回复不知道该信息。
… …
还要防止GPT补全和续写在海量学习时所学到的有害内容,也就是要教他什么该说,什么不该说。
如当有人问如何偷窃时,不能让他真的回答偷窃方法,而要让他回答偷窃是违法行为,那就要把“偷窃是违法行为”作为学习材料,让他做单词接龙。

(2)用对话模板去校正他在海量学习时所学到的不规范习惯。
具体做法:不再用碎片的互联网文本,而是把人工专门写好的优质对话翻译给海量学习后的GPT,让他再去做单词记录,从而学习如何组织符合人类规范的回答,这一阶段称为模板规范。

(3)多样性变化
在模板规范阶段,可以将任何任务以对话的形式交给chatgpt,不仅仅是聊天,还可以包括识别态度、归纳思想、拆分结构、仿写风格、润色、提高和对比等等。
只要这个任务可以写成文字,就可以把该任务的要求和应答做成一个对话范文,让chatgpt通过单词接龙来学习。

理解指令要求的能力和理解例子要求的能力
理解指令要求是指能按照用户的抽象描述给出处理结果,这项能力就是通过模板规范所获得的,把制定要求与操作对象作为要求,把执行结果作为应答,组合成一篇对话范文后,让他通过单词接龙来学习。

理解例子要求是指能按照用户给的若干具体例子来处理新内容,意味着如果以后你不明白怎么给他描述指令,就可以通过给他举几个例子来让他明确你想干什么。这项能力同样是通过模板规范所获得,把例子一、例子二直到例子N。作为要求,把执行结果作为应答组合成一篇对话范文后,让他通过单词兼容来掌握这项能力。
在这里插入图片描述
(4)分治效应
当它无法答对一个综合问题时,若要求它分步思考,它就可以一步步连续推理,最终答对的可能性会大幅提升。
该能力也叫做“思维链”,因为人类在面对复杂任务时,直接思考答案也会没头绪,用分而治之,往往可以解决

单词接龙的结构虽然简单,但被扩展至超大规模后所能展现出的能力有多超乎意料,在单词接龙模型中并没有察觉出理解指令、理解例子、思维链的能力,但在超大模型中却突然展现,因此人们也用“涌现”这个词来描述这些能力的出现。
在这里插入图片描述
4、创意延伸
科学领域的问题有标准答案,可以用模板规范的训练方式来满足需求,但人文领域的问题没有标准答案,持续用模板规范,可能会让chatgpt成为高分范文的模板复刻机,无法满足人们的需求。

我们也希望能让chat GPT提供一些超越模板,但仍符合人类对话模式和价值取向的创新性回答。

这一次不再要求他按照我们提供的对话范例做单词接龙,而是直接向他提问,再让他自由回答。如果回答的妙,就给奖励,如果回答不佳,就降低奖励,然后利用这些“人类评分”去调整GPT的模型,在这种训练中,我们既不会用现有的模板来限制它表现,又可以引导他创造出符合人类认可的回答。

总结:
ChatGPT正是在GPT3.5的基础上,先后经历了海量学习(无监督学习)、模板规范(监督学习)、创意延伸(强化学习)三个阶段的训练后得到的生成语言模型。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值