一文读懂ChatGPT的前世今生（附相关论文下载）

最新推荐文章于 2024-08-24 20:40:11 发布

ulucu888

最新推荐文章于 2024-08-24 20:40:11 发布

阅读量4.7k

点赞数 2

文章标签：人工智能自然语言处理

本文链接：https://blog.csdn.net/ulucu888/article/details/129088100

版权

2022年11月，人工智能公司OpenAI推出了一款啥都会的聊天机器人：ChatGPT。它能聊天、能翻译、能做题，还会写情书、写论文、写小说……功能强大到马斯克都表示“我们离强大到危险的 AI 不远了”。

ChatGPT是平地起高楼吗？是横空出世吗？当然不是。伴随着人工智能领域不断更新迭代的研究及不断增长的算力，才有了今天震撼世界的ChatGPT。

悠络客自成立以来一直致力于建立前沿深度学习和算法平台。今天，我们就从技术角度出发，立足基本概念和基础研究，循序渐进对ChatGPT及相关热点内容进行介绍。

#1 NLP（自然语言处理）

NLP 的全称是 Natural Language Processing（自然语言处理）。它是人工智能的一个重要领域。顾名思义，该领域研究如何处理自然语言。常见的 NLP 任务有机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、关系抽取、阅读理解等等。

NLP有两个核心的任务，分别是NLU自然语言理解（Natural Language Understanding）和NLG自然语言生成（Natural Language Generation）。NLU聚焦于使机器理解自然语言，NLG则是机器将非语言格式的数据转换为人类可以理解的自然语言。

自然语言理解是人工智能领域皇冠上的明珠，NLP是人工智能赋能社会和赋能行业的硬核科技。“如果我们能够推进自然语言处理，就可以再造一个微软。”比尔·盖茨对自然语言处理在人工智能时代及未来社会发展中的重要性，给予中肯的定义。

#2 Transformer

在Transformer面世之前，NLP领域的主流模型是循环神经网络RNN（Recurrent Neural Network）及其各种变体。RNN及其各种变体模型有两大问题：

如果传递距离过长就会伴随梯度消失、梯度爆炸和遗忘问题，因此不能有效学习长距离的依赖关系；

在处理序列时必须逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理，这样无法同时并行训练，导致训练模型时间过长。

2017年6月，Google Brain发表了一篇论文：Attention Is All You Need（注意力就是你所需要的）（点击下载论文）。

Transformer是这篇论文里提出的一种模型架构，Transformer基于Encoder-Decoder结构并加入了位置编码及Self-Attention机制。通过Self-Attention机制使得每个序列中的每个词都有全局的语义信息，因此Transformer处理长距离的依赖关系比RNN要好很多；同时由于对输入叠加了Positional Encoding，因此能一次接收整个句子中的所有词作为输入，并行计算后训练的时间相比RNN及其变体也大大缩短。作者将其用于NLP领域中的机器翻译，Transformer在英语-德语和英语-法语相关测试中夺得了SOTA（State-of-the-Art，最先进的）结果，且训练成本相对于以前的一些最好模型要少很多，只是它们的一小部分。

从数学角度来说，NLP可以归为序列建模问题。所谓序列建模，就是要建模产生这个序列的概率分布，或者严格上说是其中的一些条件概率。Transformer的思想是开创性的，对序列建模领域有着深远的影响。Transformer被广泛应用于NLP的各个领域，后续在NLP领域全面开花的语言模型如GPT系列、BERT等，都是基于Transformer。Transformer的出色表现也促使许多人将其应用在计算机视觉领域，相比于传统的卷积神经网络(Convolutional Neural Networks,CNN)，视觉Transformer（Vision Transformers，ViT）依靠出色的建模能力，在多项视觉任务上取得了优异的性能。