【全面解析】ChatGPT原理与训练流程：一篇文章带你轻松入门！（内附思维导图）

最新推荐文章于 2024-12-30 09:00:00 发布

Yuchengbuyv

最新推荐文章于 2024-12-30 09:00:00 发布

阅读量2.1k

点赞数 34

文章标签： chatgpt 人工智能

本文链接：https://blog.csdn.net/Yuchengbuyv/article/details/141651379

版权

我们将用更加偏向科普的方式来介绍 ChatGPT，让大家了解 ChatGPT 的原理，以及它背后的关键技术——预训练。

1对ChatGPT的误解

1.1罐头讯息误解

许多人认为ChatGPT像一个自动售货机，当提出问题时，它会从预设的选项中随机挑选一个回答。这种误解源于对AI生成文本的不了解。实际上，ChatGPT的回复并非预设的“罐头讯息”，而是根据输入实时生成的。每次提问，即使是相同的问题，也可能得到不同的答案，ChatGPT具有动态生成能力。

1.2网络搜索结果误解

另一个普遍的误解是ChatGPT通过实时网络搜索来回答问题。人们可能认为，当询问某个问题时，ChatGPT会快速浏览互联网上的信息，然后整合搜索结果给出答案。然而，ChatGPT的生成过程是离线的，它不依赖于实时网络搜索。它生成的文本是独立完成的，通常在网络上找不到完全相同的答案。

2ChatGPT的工作原理

2.1文字接龙模型

ChatGPT的核心是一个复杂的“文字接龙”模型。这个模型接收一段文本作为输入，预测并生成接下来的词或短语。这个过程涉及到复杂的算法，它评估每个可能的词汇在给定上下文中的概率，并选择最合适的词汇继续文本。

2.2参数和复杂性

GPT3 有 1700 亿的参数，所以 ChatGPT 总不会比 GPT3 少，这使得它能够理解和生成多样化的语言结构。这些参数在模型的训练过程中不断调整，以更好地捕捉语言的复杂性和细微差别。

2.3训练与测试的区别

但是没有联网的 ChatGPT 是如何通过大量网络数据来进行学习的呢？这里我们要分明确训练和测试，要切成两个部分来看，**寻找函数的过程，我们叫做训练。寻找函数的时候， ChatGPT 有去搜集网络的数据，来帮助他找到这个可以做文字接龙的函数。但是当这个可以做文字接龙的函数被找出来以后，模型就不需要联网了，就进入下一个阶段了，叫做测试。训练是模型学习的过程，而测试是模型应用知识回答问题的阶段。**在训练阶段，ChatGPT通过分析大量数据学习语言模式。一旦训练完成，模型就进入测试阶段，此时它不再依赖外部数据，而是根据已学到的知识生成回答。

3预训练技术

3.1自监督学习和基石模型

预训练。预训练这个技术其实又有各式各样的名字，有时候它又叫做自监督学习，有的人又把预训练得到的模型叫做基石模型。
预训练是一种自监督学习的形式，它允许模型在没有明确监督的情况下学习语言的基本结构。这种方法生成的模型被称为基石模型，它们可以作为其他应用的基础。
预训练显著提高了ChatGPT的性能。通过在大量文本上进行训练，模型学会了语言的通用模式，这使得它能够更好地理解和生成语言。
因为这个 ChatGPT 是由 GPT 产生出来的，所以这类像 GPT 通过自监督式学习得到的模型，今天又叫做基石模型

3.2多语言能力

预训练还赋予了ChatGPT多语言能力。模型不仅在一个语言上进行训练，而是在多种语言上，这使得它能够理解和生成不同语言的文本。

4ChatGPT的训练过程

4.1从GPT到ChatGPT的演变

ChatGPT的发展经历了从早期的GPT模型到当前版本的演变。每一代模型都在前一代的基础上进行了改进，包括增加参数数量和训练数据的规模。

4.2监督式学习和强化学习

ChatGPT的训练过程包括监督式学习和强化学习。在监督式学习阶段，模型根据人类标注的正确答案进行训练。而在强化学习阶段，模型根据反馈调整其生成的文本，以更好地满足用户的需求。
通过这些训练技术，ChatGPT能够提供准确、相关且多样化的回答，使其成为深度学习领域的一个重要应用。尽管存在一些误解，但ChatGPT的复杂性和能力是其成功的关键。随着技术的不断发展，我们可以期待ChatGPT在未来变得更加智能和有用。
我们知道 ChatGPT 中不只是有监督式的学习，还有加上强化学习，其使用的是强化学习中常见的** PPO 算法。**
在强化学习中，人不是直接给机器答案，而是告诉机器，现在你的答案是好还是不好。强化学习的好处是，相较于监督式学习，监督式学习的人类老师是比较辛苦的，而在强化学习中，人类老师可以偷懒，只需要指导大的方向。那什么时候适用强化学习呢？第一个就是想偷懒的时候，因为用强化学习，可以更容易地收集到更多的数据，人类老师付出的心力比较少，所以可以给予更多的回馈。另外一个更重要的点在于，强化学习更适合用在人类自己都不知道答案的时候。举例来说，请 ChatGPT 帮我写诗来赞美 AI。其实很多人当场是写不出来的，但是也许如果机器写一首，你可以判断这首诗是不是一首好诗。所以假设今天一个问题的答案，人类都不太确定应该是什么样子时，用强化学习节省人类的力量，人类不需要自己给答案，只需要给回馈就好。

ChatGPT 的学习基本上就是三个步骤——先做预训练，再做监督学习，然后做强化学习。

5带来的研究问题

5.1如何精准提出需求

精准提出需求是指用户如何有效地与AI沟通，使其能够理解并满足用户的具体需求。这涉及到对AI的“调教”，即通过精心设计的提示**（prompting）**来引导AI生成期望的输出。研究者正在探索如何系统化这一过程，使AI能够更准确地理解和响应复杂的用户指令。

5.2神经编辑

如何让机器修改一个错误，不要弄错更多地方，这会是一个新的研究的主题，即神经编辑**（neural editing）**。我们知道这些模型都是神经网络，那怎么去修改神经网络，怎么对神经网络做一些微调让它变成我们要的样子，这个就是神经编辑的工作

5.3判断AI生成内容

随着AI生成内容的普及，如何区分人类创作和AI生成内容成为一个重要问题。研究者正在开发检测机制，以识别文本、音频或视频是否由AI生成，这对于版权保护、内容验证和信任度评估等方面具有重要意义。
有话说：：：：ChatGPT本身就是一个工具，那我们应该要学习去使用它，就好像计算机也是一个工具，搜索引擎也是一个工具，那我们并不会因为使用这些工具就变笨，而是我们把我们脑力留在更需要的地方。