ChatGPT原理与技术演进剖析

最新推荐文章于 2024-05-31 00:06:43 发布

咖哥

最新推荐文章于 2024-05-31 00:06:43 发布

阅读量4.2k

点赞数 1

分类专栏：机器学习文章标签： chatgpt 人工智能自然语言处理

本文链接：https://blog.csdn.net/JackyHuang79/article/details/129116297

版权

—— 要抓住一个风口，你得先了解这个风口的内核究竟是什么。本文作者：黄佳（著有《零基础学机器学习》《数据分析咖哥十话》）

ChatGPT相关文章已经铺天盖地，剖析（现阶段或者只能说揣测）其底层原理的优秀文章也已经出现，其中就包括爱丁堡大学符尧博士的文章：How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources 以及Alan D. Thompson博士的文章：GPT-3.5 + ChatGPT: An illustrated overview。再继续等待OpenAI发表ChatGPT的官方论文之前，我也谈谈自己对他的一些肤浅理解。

当然我已经问过ChatGPT本GPT这个问题了，它的回答不外乎是一些众所周知的东西。所谓大规模、高质量的训练数据和基于Transformer的架构，以及大量计算资源的需求，那是所有预训练大模型的共性，像Google、Meta这样的公司拥有的资源也不会比OpenAI差，但是他们并没有训练出ChatGPT这样的作品。
ChatGPT这么优秀，却又这么谦虚

标题成功源于反复迭代，持续优化

不过，这个答案和之前与他的某些对话过程中，有一点令我印象深刻的是，ChatGPT反复的强调它并不是突然出现的，他的出现是一个反复迭代，持续优化的过程。
GPT-3模型家族（图片来源：https://lifearchitect.ai/gpt-3/）
所以我们先来看一看，ChatGPT是怎样一步一步进化到现在这个程度的。如上图所示GPT-3最早发布于2020年5月，这一批模型有大有小，小的125M参数，大到有175B的davinci。基于这个175B的GPT-3，又演进出了一系列的GPT分支模型，重点解决不同类型的任务，其中与ChatGPT的演进密切相关的重要模型包括：

text-embedding-adc-002：这个模型是用于文本嵌入的模型，可以将文本嵌入到低维向量空间中，用于语义相似度计算等任务。在ChatGPT中，这个模型用于对话历史的编码，有助于生成连贯的对话文本。
code-davinci-002：这个模型是用于代码生成的模型，可以生成高质量的代码。在ChatGPT的改进过程中，OpenAI将code-davinci-002和GPT-3的部分结构进行了融合，用于增强模型在程序生成等任务中的表现。
text-davinci-002：这个模型是在davinci模型基础上进行的改进，其主要特点是能够在生成文本时保持一定的一致性和连贯性。在ChatGPT的改进过程中，OpenAI采用了text-davinci-002的部分结构，用于增强模型在对话生成任务中的表现。

这样，我们不难发现，ChatGPT是高屋建瓴。GPT-3这个模型已经在生成连贯的文本、保持一致性、理解上下文等方面表现优秀，这为ChatGPT的生成能力和质量奠定了基础。而ChatGPT又进一步整合了后续的text-embedding / code-davinci / text-davinci 中的对话历史的编码、代码生成以及连贯文本生成的能力。当我们第一次见到ChatGPT的时候，他似乎已经是全能的了。

因此：