ChatGPT介绍

最新推荐文章于 2024-05-31 00:06:43 发布

Azir_12138

最新推荐文章于 2024-05-31 00:06:43 发布

阅读量1.2k

点赞数

文章标签： chatgpt 人工智能

本文链接：https://blog.csdn.net/Azir_/article/details/131601461

版权

目前GPT的使用场景

1. GPT-4自动化浏览器：输入自然语言命令，操控浏览器

使用Taxy AI插件在日历增加日程
在视频网站上搜索并播放视频
修改Github上仓库的配置

2. Cursor：输入自然语言，生成或改进代码、做你不想做的事情

给代码加上注释

20230330-111920

3. gptcommit：生成Commit Message

官网

4. 微软-Office：根据自然语言生成文档、ppt

撰写、总结、协同创作
通过自然语言生成PPT内容，也支持引用文档生成PPT
查看趋势分析、创建可视化图表

发展

第一次发展

从某种意义上，语言表达是人类信息和思想交流的窗口。人类并没有第七感，也没有脑电波直达的交流，信息沟通都通过口头语言和书面语言来传递。
针对语言信息的人工智能处理，或者学术一点，「自然语言处理 NLP（Natural Language Processing）」，是科学家们最早研究，人工智能最早发源的领域。
远在 1956 年，美国的达特茅斯学院举行了一次具有传奇色彩的学术会议（Dartmouth Conference），计算机专家约翰·麦卡锡提出了「人工智能」一词。这被广泛认为是人工智能正式诞生的日子。

十位参与 1956 年的达特茅斯会议的科学家，AI 之父们

约翰·麦卡锡（John McCarthy）, 率先提出了 AI 的概念, 开发了码农熟知的程序语言 Lisp。
马文·明斯基（Marvin Minsky），在 1951 年在普林斯顿大学读博士的时候，建立了第一个神经网络自学习机器 SNARC (Stochastic Neural Analog Reinforcement Calculator 随机神经模拟强化计算器)，这是第一个真正意义上的人工神经网络硬件，用 3000 个真空管来模拟了 40 个神经元的信号传递。
克劳德·香农（Claude Shannon），通信科学鼻祖，大名鼎鼎的香农定理是所有通信制式最基本的原理。
赫伯特·西蒙（Herbert Simon）和艾伦·纽厄尔（Allen Newell）在达特茅斯会议上报告了世界上第一个 AI 项目「逻辑理论家（the Logic Theorist）」。

在这个会议上提出了7个有前瞻性的议题：

Automatic Computer 自动计算机

「如果一台机器可以完成一项工作，那么就可以对一台自动计算器进行编程来模拟这台机器。目前计算机的速度和内存容量可能不足以模拟人脑的许多高级功能，但主要的障碍不是缺乏机器容量，而是我们无法编写充分利用我们所拥有的机能。」

How can a Computer be Programmed to Use a Language？如何对计算机进行编程以使用一种语言

「可以推测，人类思想的很大一部分是根据推理规则和猜想规则来操纵词语的。从这个观点来看，形成泛化就是承认一个新词和一些规则，其中包含这个新词的句子暗示和被其他句子暗示。这个想法从来没有被非常精确地表述过，也没有例子。」

Neuron Nets 神经网络

「一组（假设的）神经元如何排列以形成概念。很多当下的计算机科学家等人已经就这个问题做了大量的理论和实验工作。已经获得了部分结果，但这个问题还需要更多的理论工作。」

Theory of the Size of a Calculation 计算规模理论

「如果给一个很好的问题（一个可以机械地测试所提出的答案是否是有效答案的问题），解决它的一种方法是按顺序尝试所有可能的答案。这种方法是有效的，要排除它，必须有一些计算效率的标准。一些考虑将表明，为了获得计算的效率的度量，必须手头有一种测量计算设备复杂性的方法，如果有函数复杂性理论，这反过来也可以做到。香农和麦卡锡已经获得了关于这个问题的一些部分结果。」

Self-improvement 自我改进

「也许真正智能的机器会进行自我改进的活动。已经提出了一些这样做的方案，值得进一步研究。这个问题似乎也可以抽象地研究。」

Abstractions 抽象

「许多类型的「抽象」可以被清晰地定义，而其他一些类型则不那么清晰。直接尝试对这些进行分类并描述从感官和其他数据中形成抽象的机器方法似乎是值得的。」

Randomness and Creativity 随机性和创造性

「一个相当吸引人但显然是不完整的猜想是，创造性思维和缺乏想象力的有效思维之间的区别在于注入了某种随机性。随机性必须由直觉引导才能有效。换句话说，受过教育的猜测或直觉在其他有序的思维中包括了受控的随机性。」

从 1955 年到 1974 年是 AI 的第一次发展高潮，大量成功的初代 AI 程序和研究方向不断出现。AI 先驱们非常乐观的预言：

「十年之内，数字计算机将成为国际象棋世界冠军。」(1958年，H. A. Simon，Allen Newell)
「二十年内，机器将能完成人能做到的一切工作。」(1965年，H. A. Simon)
「在三到八年的时间里我们将得到一台具有人类平均智能的机器。」(1970年，Marvin Minsky)

到了 70 年代初，AI 科学家们逐渐发现，虽然机器拥有了简单的逻辑推理能力，但遇到了当时完全无法克服的基础瓶颈，这些瓶颈基本就是时代的局限：

当时计算机的运算能力问题
且不说当时最原始的计算机那点可怜巴巴的算力了，我们知道，一直到了最近十来年，个人计算机组网之后的并行算力才真正达到了可以支持现代 AI 大模型训练迭代的要求。
推理需要积累大量对世界的认知信息

这就是个大数据的基础积累问题。而大数据的积累，也是在现代互联网的迅猛发展之后，才得到了真正的解决。

巨大的打击

人工神经网络这个当下最主流的 AI 发展路线，在当时阴差阳错的遭到了巨大打击一蹶不振。而暴击了整个神经网络研究的，正是人工神经网络的缔造者马文·明斯基本人。
前面说过，明斯基搭建了第一个神经网络自学习硬件机器。当时有一位明斯基低一届的高中学弟弗朗克•罗森布拉特（Frank Rosenblatt），从康奈尔大学获得博士学位后，跟随师兄的步伐，获得了美国海军研究室资助，研制了人工神经网络「感知机（Perceptron）」。
1957 年，第一个版本的感知机以软件仿真的形式运行在 IBM704 上。1962 年，罗森布拉特出版《神经动力学原理：感知机和脑机制理论》，引起了全球 AI 实验室的大量关注和效仿，并将感知机系统运用于文字识别，语音识别等领域，神经网络研究达到了第一次高潮。
而这个时候，明斯基自己回到哈佛任教，申请国防项目却遭到了挫折，让明斯基特别郁闷的是，自己曾服役的海军把经费投给了学弟，支持的却是自己好几年前就玩过的神经网络。数学背景深厚的明斯基拿起数学武器对人工神经网络进行了扎实的理论分析，并在 1969 年出版了《感知机》，通过数学理论推演指出罗森布拉特的感知机功能有限，甚至不能解决线性不可分问题。（如不能用一个直线或者一个直面把二维或者三维坐标系中的两类数据很好的划分。就是线性不可分。）
明斯基在《感知机》书中暗示说：把感知机从一层神经网络推广到多层的思路是没有希望的。既然连 AI 先驱和人工神经网络缔造者本人的明斯克都说，神经网络这个方向没戏，所有的研究者都深感气馁，神经网络的研究从此走向了低潮。更可惜的是，在两年后，发明感知机的学弟罗森布拉特遭受意外去世，再也没人出来挑战明斯克的结论了。
总而言之，在 70 年中后期，因 AI 完全达不到所预言的完全智能的程度，只能停留在「玩具」阶段。原先过高的承诺引发了公众过高的期望值。转而变成彻底的失望和针对 AI 研究的激烈批评，最终大量机构对基于神经网络的人工智能研究减少甚至停止拨款，AI 研究走进了第一次寒冬。

第二次发展

专家系统

在 80 年初，一类名为「专家系统」的 AI 程序开始为全世界公司青睐，人工智能研究又迎来一波高潮。
什么是「专家系统」？百度百科的解释如下：

专家系统是一个智能计算机程序系统，其内部含有大量的某个领域专家水平的知识与经验，它能够应用人工智能技术和计算机技术，根据系统中的知识与经验，进行推理和判断，模拟人类专家的决策过程，以便解决那些需要人类专家处理的复杂问题，简而言之，专家系统是一种模拟人类专家解决领域问题的计算机程序系统。

一句话说，专家系统根据过往的知识经验积累来模拟人类专家从而进行逻辑推理和判断。第一条路线神经网络派在当时被自己的鼻祖明斯克按在地上摩擦，第二条路线则在 80 年代初恰逢其时的站了出来。
和神经网络旨在研发通用结构的 AI 模型不同，专家系统基于符号逻辑的概念。它们通常是由特定领域的专家（比如医药、金融或者制造业）开发的，仅限于一个很小的知识领域，依据一组专门知识推演出的逻辑规则来回答特定领域的问题。而随着专家系统的热门，「知识处理」也随之成为了主流 AI 研究焦点。
普通人所熟知的专家系统应该是后来的 IBM 超级计算机「深蓝」。IBM 从 1985 年开始研发「深蓝」计算机。它是一个专门针对国际象棋的专家系统。1996 年，它在六场比赛中的一场中击败了国际象棋大师加里·卡斯帕罗夫（Garry Kasparov），名扬天下。
但专家系统在工业界多少有点昙花一现，繁荣之后迎来的是迅速的没落。这是因为 80 年代的专家系统存在着基础性的问题，首先就是专家系统的知识领域过于狭窄难以拓展。
为什么「深蓝」那么牛逼的系统，赢了国际象棋后好像就泯然众人矣，并没有继续在其他领域发挥光和热。而答案就是，因为它只能用来下国际象棋…
此外，在专家系统变得越来越庞大后，为其提供和管理数据、开发和测试都变得越来越复杂。更要命的是，专家系统是不会自己学习的，这意味着必须不断更新底层逻辑来保持专家系统解决领域新问题的能力。这大大增加了系统维护成本和复杂性。
因此，到了 80 年代末期，大家都看明白了，专家系统虽然有点用，但领域过于狭窄，更新迭代和维护成本非常高。专家系统开始迅速在业界失宠，很多相关公司破产。
这就是人工智能的第二次繁荣后的又一次寒冬。而导致第二次AI寒冬的原因，除了前面所说的应用范围的局限性和商业过分追捧导致最后泡沫的破裂，还有那两个老大难问题：

计算机的算力瓶颈仍然无法突破
仍然缺乏训练AI的足够海量数据

神经网络的革命性进展

在当年的专家系统开始走向低谷之时, 深度学习的前身人工神经网络却取得了革命性的进展，在1986年戴维·鲁梅哈特（David Rumelhart）、杰弗里·辛顿（Geoffrey Hinton）等人推广了由保罗·韦尔博斯（Paul Werbos）发明的反向传播算法（BP 算法），使得大规模多层神经网络训练终于成为可能。
反向传播算法使得神经网络的中间级可以学习到数据输入的有效表达，这就是神经网络乃至深度学习的核心思想。困扰AI先驱们的多层神经网络无法训练的难题终于被突破了。

第三次发展

最重要的引子

2006 年，杰弗里·辛顿（Geoffrey Hinton）在 science 期刊上发表了重要的论文，提出深度置信网络（Deep Belief Networks，DBNs）,「深度学习」正式诞生，基于人工神经网络的第三次 AI 发展浪潮开始了，且一直延续至今。
和前两次浪潮不同的是，当下计算机性能已经能让大规模的人工神经网络模拟得以成为现实，在 1957 年，罗森布拉特用 IBM704 去仿真感知机，每秒完成 1.2 万次浮点加法，而如今超级计算机速度是 IBM704 的 10 万亿倍以上。
除了算力之外，限制前两次 AI 浪潮发展的另一主要因素就是数据的缺乏。在深度学习理论模型提出之后，最早之一意识到了 AI 学科发展的数据钳制并着手去解决的是华人女 AI 科学家李飞飞。年轻的李飞飞以坚韧不拔的大无畏精神推动完成了一个超大规模的开源图片标注数据库，这就是著名的 ImageNet 项目。在 2009 年正式发布时，ImageNet 有超过 1000 万数据，两万多个类别。

预训练模型

2010 年开始，Image Net 大规模视觉识别挑战赛（ILSVCR）开始举办，全世界图像领域深度学习的专家们同台竞技和交流，从此拉开了计算机视觉的新篇章。
ImageNet 的出现和发展给了自然语言 AI 模型研究一个很重要的启发。这就是图像领域深度学习的预训练概念。
「深度学习」顾名思义，就是具有很多层级的神经网络模型。现代神经网络模型的网络结构层数很深，动则几百万上千万参数量。而这些神经网络模型在能做特定任务之前，都是需要经过训练的，即根据标注好的特定训练数据去反复调整模型里的参数，最后所有参数调整到位，模型能匹配训练数据集的输入和输出。
那么，问题来了，要调整深度学习神经网络模型里那成千万的参数量，如果训练数据少了，肯定很难调整到位啊。这就好比一个内部齿轮复杂精密的新机器，如果只稍微动一下，内部能牵扯到的齿轮机构说不定都很少，达不到磨合的目的。只有大规模长时间运转起来，内部的齿轮才能全速转起来，互相磨合好。
图像神经网络模型
神经网络越底层的特征越基础抽象，比如什么边角弧线等，而越往上层，就具体和任务相关。是不是很神奇？
人们开始动脑筋了，既然是这样，那么是不是可以先用标准的大数据集比如ImageNet来做深度学习网络的「预训练」呢？反正那么多层的神经网络里，大多数的层级都和特定任务关系不大,我们只需要把通用大数据预训练得到的网络模型结果，再结合任务相关的那点可怜的标注数据去微调（Fine-tuning）高层的网络参数，使得高层参数输出更匹配当前领域的任务，不就 OK 了吗？
这样一来，原本因为数据不足而无法训练的特定任务也能解决了。即便任务的训练数据不缺，先通过预训练过程也能极大的加快特定任务训练的完成速度。预训练这种通吃的解决方案人见人爱，很快在图像处理领域广泛流行开来。

NLP AI 的深度进化

在自然语言处理的研究里，有个基本概念叫做「语言模型」，大致理解起来也简单，就是想办法打造一个核心函数P，这个函数通过一个句子里前面的所有单词来计算下一个单词的概率大小。一句话里的单词总是顺序出现的，每个单词都可以通过前面所有单词计算出这么一个概率，把所有这些单词的概率乘起来，总概率数值越大，说明这越像是人说出的话。
在神经网络学派看来，是不是可以用神经网络来打造这样一个语言模型呢？就是说用很多的现成语料，来训练出一个神经网络，然后给这个神经网络模型输入一句话的前面几个词，这个模型就能计算出这句话的下一个单词。

NNLM

这就是大名鼎鼎的「神经网络语言模型 NNLM」。
NNLM 神经网络语言模型的想法并不是最近冒出来的, 它的历史要追溯到 20 年前。NNLM 的论文在 2003 年就被发表出来了，而当时，深度学习的概念还只存在于杰弗里·辛顿（Geoffrey Hinton）的脑袋里。
不幸的是，NNLM 当时没有引起学界多少反响，被埋没了近 10 年。事实上，在深度学习大火之前，用神经网络做自然语言处理甚至会被笑话，之前自然语言处理的主流研究方式还是基于统计学的机器学习方法。神经网络语言模型 NNLM 这个概念太超前时代了。

基于统计学的机器学习方法在NLP中被广泛使用，被使用于简单的文本分类或者标注任务。优点是易于解释和实现，且在处理大规模的文本数据时具有很好的效果。但缺点是对于复杂的自然语言处理任务表现不佳，因为模型无法很好地捕捉语言结构和语境信息。
神经网络在NLP领域具有较为出色的表现。因为神经网络模型可以自动学习特征和语言结构，它可以表示并学习语义和上下文关系。但神经网络也有一些缺点，比如需要大量的数据和计算资源才能训练，并且通常难以解释其内部的工作方式。

一直到了 2013 年，在深度学习概念提出来 7 年之后，深度学习神经网络模型先是在图像和语音领域大显神威，自然语言 AI 的同学终于想起了这篇十年前的论文。NNLM 重出江湖，为世人所知。

Word2Vec

在 2013 年，AI 研究人员倒腾了一个自然语言处理的处理模型 Word2Vec。顾名思义，「Word2Vec」就是「word to vector，从词到向量」。研究人员的目标是把一个单词变成一个数学向量，这个数学量在 NLP 里有个专门的名词，叫做Word Embedding（词嵌入）。
为啥要变成一个向量，出发点也很简单，如果能将每个单词都能表示为数学空间里的一个向量，那么是不是理论上，在这个向量空间里比较接近的词，就是意义接近的单词呢？这样计算机不就可以方便的理解单词之间的联系了吗？
Word2Vec 翻出了十年前的 NNLM。NNLM 的初衷只是想构建一个神经网络语言模型，根据前面的词，来预测后一个是什么词。NNLM 网络内部构造了一个随机初始化的矩阵，通过不断的训练，来达成 NNLM 模型预测单词的目的。
特别凑巧的是，研究人员发现这个训练出来的内部矩阵的每一行，正好可以作为每个词的嵌入向量 Word Embedding！这真是得来全不费功夫啊。
NNLM 和 Word2Vec 使用了类似的神经网络结构，不过因为目的不同，其训练方法理念是截然不同的。NNLM 作为语言模型，是要看到上文预测下文，所以训练时输入的是句子上文单词；而 Word2Vec 呢？因为它的目标是要找出所有单词之间意义远近的数学关系，所以训练时都使用句子上文和下文作为输入。
这两种训练方式在更高的意义上有着一些本质区别，就好比我们人类说话，都是顺序说出来一个个单词的，说不定呢，人的潜意识或许也是一个类似 NNLM 的 P 函数，自觉不自觉地的决定人说话里的下一个词是什么。因此只从上文预测下文的训练方式，貌似天然更契合「生成式」的逻辑。
而 Word2Vec 这种通过上文和下文输入来训练的方式，可以比喻成机器来做阅读理解，就像是我们做语文或英语的阅读理解，一定是通读全文，然后根据上下文来理解和判断问题的答案。这样的人工智能，就是所谓分析式的 AI。
两种模型训练的思路，在后续发展里变成了自然语言模型的两种路线。OpenAI 生成式模型 GPT 系列，坚定的只用上文进行训练，用以追求纯粹的生成；而 Google 公司的大语言模型 Bert，则采用了上文和下文一起训练的模式。

ELMO

前面提到，图像处理领域里使用大规模通用数据进行「预训练」所取得的效率和成果实在让人羡慕，而在自然语言处理领域里，其实也有一点点「预训练」概念的，这个预训练就是，每个单词的 Word Embedding 可以反过来初始化神经网络的内部参数。
这种「预训练方式」和前面图像处理领域的低层级网络预训练方式有点类似，但问题是利用 WordEmbedding 只能初始化第一层网络参数，和图像处理领域的预训练能有效初始化大多数网络层级不可同日而语，只能说是一种比较原始初级的「预训练」了。
采用 WordEmbedding 来初始化 NLP 神经网络有那么点效果，但没有期待的那么好。这里面还有一个逻辑上的原因：一个单词有多义词问题。所以企图在一个数学空间里用一个固定的数学向量来表征一个单词的意义，还要求含义相近的单词都聚在一起。在面对多义词的时候，这在逻辑上显然就是矛盾的。
既然一个单词存在多义性，固定的 Word Embedding 向量无法表达单词的多个含义，那么是不是可以先训练好一个单词的 WordEmbedding，然后在实际使用中，根据句子里的上下文语义去动态调整这个 WordEmbedding 数值，这样经过调整后的「动态 WordEmbedding」更能准确表达单词在上下文的具体含义，同时自然的，解决了多义词的问题。
这个根据当前上下文来动态调整 Word Embedding 的想法就是顶级学术会议 NAACL 2018 年的最佳论文《Deep contextualized word representation》，这个 NLP 模型命名为 ELMO (Embedding from Language Models, 基于语言模型的词嵌入)。
ELMO 引入上下文动态调整单词 WordEmbedding 后，多义词问题就被彻底解决了，而且比预期的解决得还好：利用 ELMO 改进过的多种不同 NLP 任务，性能上都有幅度不同的提升，最高达到了25%，不愧是最佳论文。
此外，ELMO 还有一个贡献，研究人员发现 ELMO 所使用的深度神经网络模型里，不同层次提取到的特征是有差异的，已经跟图像预训练的模型层级特征有点像了。
因为技术原因，ELMO 模型在抽取文字特征方面还比较弱，这是一个技术上的缺陷，意味着这个模型就无法很好完成 NLP 的「预训练」梦想：特征都抽取不好，怎么让网络里每一层具体表达不同逻辑层级的特征呢…而从技术细节上对比，也会发现 ELMO 这种「预训练」方法和图像领域的预训练方法，两者在模式上还有很大差异。
自然语言 AI 研究人员还需要继续找到一个方法，希望这个方法能很好的提取出文字的特征，就类似图像处理领域的神经网络模型，能很好的提取图像不同逻辑层面的特征。
恰好就在 2017 年底，Google 研究人员发表了一篇里程碑式的论文，这一篇论文提出的「自我注意力」机制让自然语言处理揭开了崭新的篇章。

注意力机制与基础模型 Transformer

2017 年 12 月，Google 在顶级机器学习会议 NIPS 上发表了论文《Attention is all you need》，提出在机器翻译上大量使用自注意力机制来学习文本表示，并把这种机制模型起了个霸气的名字：Transformer。
这篇论文一经出世就横扫了整个自然语言处理学术界，Transformer 迅速的取代了深度学习里传统的循环神经网络（RNN）成为了之后的大语言模型的标准配置。
Transformer 是目前 NLP 领域里最强的特征提取器，本质上 Transformer 是一个叠加的「自注意力机制」构成的深度网络。
包括我们现在所知道的 OpenAI-GPT 系列模型， Google-BERT 系列模型以及百度-文心模型都受到了这篇论文的启发采用了部分 Transformer 的架构，从而取得了突破性的效果。
话说回来，什么是注意力机制？深度学习里的注意力机制其实是一种思想，参考借鉴了人类的注意力思维方式。视觉注意力机制是人类视觉所特有的大脑信号处理机制，我们的眼睛会快速扫描全局图像，得到需要重点关注的区域，就是所谓的注意力焦点后，再进一步对相关区域投入更多的关注。这是人类在长期进化中获得的一种生存机制，极大提高了人类信息处理的效率和准确性。
深度学习的注意力机制在概念上参照了人类的视觉注意力机制，核心目标就是从众多信息里选择出对当前任务更重要和关键的信息。
在之前NLP中，注意力机制一般是指输出句子里某个词和输入句子每个词之间的相似度。这也很好理解，就是去寻求问题（输入）和答案（输出）之间的关系。
但 Google 这篇论文的特别之处，是明确指出了，我们其实不需要先考虑输入和输出的关系啊，为什么不参考人类理解语言的方式，首先「学习」一句话内部单词之间的关系呢？这就是所谓的「Self Attention 自注意力机制」：指的是输入元素之间，或者输出元素之间的内在联系机制。
在这里插入图片描述
如上图所示，Self Attention 自注意力机制寻找到了一个句子里单词之间的语义特征, 「it」指代的是「the animal」。
稍微想一下，Self Attention 自注意力机制在逻辑意义上非常清晰，它让机器去理解人类语言每句话里单词之间的语义关系。
除了逻辑上看起来更有道理，Self Attention 自注意力机制还附带了一个很大的好处：因为网络层面抛弃了传统的 RNN（循环神经网络）模型，彻底规避了 RNN 不能很好并行计算的困扰，极大提高了模型并行训练计算的效率。更不用说，Self Attention 自注意力机制只关注部分信息，参数较少，容易训练。
基于自我注意力机制的 Transformer 模型的出现是革命性的，最最重要的一点，它能实现自我监督学习。所谓自我监督，就是不需要标注的样本，使用标准的语料或者图像，模型就能学习了。
在 Tranformer 出现之前，我们要训练一个深度学习模型，必须使用大规模的标记好的数据集合来训练神经网络。对数据进行标注只能人工进行，金钱和时间成本都相当高。Transformer 的核心是在数学上计算输入元素之间的关联（Attention），通过这种模式，Tranformer 成功的消除了训练数据集的标注需求！
Transformer 是迄今为止发明的最强大的模型之一。斯坦福研究人员在 2021 年 8 月的一篇论文把 tranformer 称之为「基础模型」（Foundation model），认为它推动了 AI 整个范式的转变。
在这里插入图片描述

GPT的发展

GPT（Generative Pretrained Transformer）生成式预训练变换器是由OpenAI团队开发的一种自然语言处理模型。该模型的目的是通过大量的预训练数据提高能够处理自然语言的计算机程序的性能。
GPT基于Transformer，使得这样的超大规模语言模型在不需要标记数据的情况下，可以借助现成的海量标准数据以及超级算力，得到通用的「预训练」版本模型。
有了预训练好的模型版本后，GPT 怎么能以适应各种各样的特定任务呢？GPT 论文里给出了简单的改造施工图，通过简单的改造操作，GPT 就能很好适应不同的任务。只需要在输入部分调整一下就可以了，非常方便。
在这里插入图片描述

GPT-1

2018年6月OpenAI发布了第一代的GPT，该模型具有1.17亿个参数。GPT-1 使用了经典的大型书籍文本数据集（BookCorpus）进行模型预训练，之后，又针对四种不同的语言场景、使用不同的特定数据集对模型进行进一步的训练（又称为微调，fine-tuning）。最终训练所得的模型在问答、文本相似性评估、语义蕴含判定、以及文本分类这四种语言场景，都取得了比基础Transformer模型更优的结果，成为了新的业内第一。

GPT-2

2019年2月，OpenAI发布了第二代的GPT，该模型具有15亿个参数。同时，他们发表了介绍这个模型的论文《Language Models are Unsupervised Multitask Learners》（语言模型是无监督的多任务学习者）。
GPT-2 模型是开源的，主要目的是为给定句子生成下一个文本序列。假如给定一两个句子的文本提示，GPT-2 就能生成一个完整的叙述。对一些语言任务，如阅读、摘要和翻译，可以通过 GPT-2 学习原始文本，而不需要使用特定领域的训练数据。

GPT-3

2020年6月，OpenAI发布了第三代GPT，该模型具有1750亿个参数。
该模型仍然有很多缺点：

回答缺少连贯性
因为GPT-3只能基于上文，而且记忆力很差，倾向于忘记一些关键信息。
有时存在偏见
因为GPT-3训练的数据集是文本，反映人类世界观的文本，里面不可避免包括了人类的偏见。
对事实的理解能力较弱
GPT-3无法从事实的角度辨别是非。比如，GPT-3可以写一个关于独角兽的引人入胜的故事，但它可能并不了解独角兽到底是什么意思。
错误信息/假新闻
GPT-3能像人类一样撰写新闻或观点文章，居心叵测的人可能利用它来产生虚假信息，如虚假故事、虚假通信或冒充社交媒体帖子，以及有偏见或辱骂性语言。
有时产生无用信息
因为GPT-3无法知道它的输出哪些是正确的，哪些是错误的，它无法阻止自己向世界输出不适当的内容。

DALL-E

2021年1月，OpenAI发布了文本生成图像的模型DALL-E，该模型具有120亿个参数。它允许用户通过输入几个词来创建他们可以想象的任何事物的逼真图像。
和GPT-3一样，DALL·E也是基于Transformer的语言模型，它同时接受文本和图像数据并生成图像，让机器也能拥有顶级画家、设计师的创造力。

Codex

2021年6月，OpenAI通过微调GPT-3模型上的代码创建了Codex模型，该模型具有120亿个参数。由于Codex模型是在包含大量公开源代码的数据集上训练的，因此在代码生成领域显著优于 GPT-3。
该模型的一个实际应用为：GitHub Copilot
GitHub Copilot使用Codex从开发者的现有代码中提取上下文，可向开发者建议接下来可输入的代码和函数行。开发者还可以用自然语言描述他们想要实现的目标，Copilot将利用其知识库和当前上下文来提供方法或解决方案。

InstructGPT

2022年3月，OpenAI发布了InstructGPT，该模型具有13亿参数。
InstructGPT在创造之初就是为了生成清晰、简洁且易于遵循的自然语言文本。
InstructGPT模型基于GPT-3模型并进行了进一步的微调，在模型训练中加入了人类的评价和反馈数据，而不仅仅是事先准备好的数据集。
开发人员通过结合监督学习+从人类反馈中获得的强化学习，来提高GPT-3的输出质量。在这种学习中，人类对模型的潜在输出进行排序；强化学习算法则对产生类似于高级输出材料的模型进行奖励。人工评分者会对每个回复进行排名。在给出一个提示和两个响应后，一个奖励模型（另一个预先训练的GPT-3）学会了为评分高的响应计算更高的奖励，为评分低的回答计算更低的奖励。最终得到的模型被称为InstructGPT。
在这样的训练过后，获得了更真实、更无害，而且更好地遵循用户意图的语言模型 InstructGPT。

ChatGPT

2022年11月，引入更多模型并基于人类反馈进行强化训练（RLHF，Reinforcement Learning from Human Feedback）后，在GPT-3上进行微调后发布了ChatGPT。
ChatGPT模型与InstructGPT模型是姐妹模型，都是使用RLHF（从人类反馈中强化学习）训练的。不同之处在于数据是如何设置用于训练（以及收集）的。
局限性：

没有真相和问题标准答案的具体来源，来答复你的问题。
模型更加谨慎，可能会拒绝回答（以避免提示的误报）。
监督训练可能会误导/偏向模型倾向于知道理想的答案，而不是模型生成一组随机的响应并且只有人类评论者选择好的/排名靠前的响应。（并非最优解）
对prompt很敏感。
造假，有可能输出假答案。
ChatGPT容易受到外界信息的影响。由于ChatGPT能够记住此前与其他用户的对话内容，并将其进行复述。这就导致了用户将能够非常轻易地干预ChatGPT对于问题的判断与回答。