AI大模型学习之白话笔记（一）-- GPT和LLM

Langchain

已于 2024-06-06 15:54:20 修改

阅读量619

点赞数 10

文章标签：人工智能学习笔记 langchain python 机器人大模型

于 2024-05-23 11:23:03 首次发布

本文链接：https://blog.csdn.net/Langchain/article/details/139142866

版权

前言

2022年底第一次听说chatGPT, 从最初的对话，到如今的文生视频Sora，带来的效果，越来越超出我们的想象。

在2023年，我尝试去了解GPT可以干什么，有什么作用，该怎么用，不过变化太快，最终也没有找到一个好的方式干进去。

为什么变化这么快，说到底，是AI大模型带来的巨变。

现在很多大厂都在降薪裁员，也有不少公司在All in AI，我们都有一个预感，要变天了。你想想，如果有一天，一款游戏的所有美术、策划、服务端、客户端、客服都可以由一个人通过gpt搞定了，就问你慌不慌？

因此，在2024年，我决定尝试去了解AI大模型，并打算用白话的方式做一些笔记，由于我也是一名初学者，当然这只是非常浅显的知识，但对还没有入门的普通人来说，应该是足够了，希望能对大家理解大模型有些许帮助。

在学习大模型之前，有必要先了解GPT，了解GPT相关的一个个名词，那么我们就从GPT开始我们的第一篇大模型学习笔记。

GPT

GPT是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。

GPT是Generative Pre-Trained Transformer的缩写，我们把GPT三个字母拆开来理解：

G代表Generative（生成式）

这是一种机器学习模型，它的作用是学习数据的分布，生成与训练数据类似的新数据。这其实就是之前自然语言处理(NLP)领域干的事。

P代表Pre-Trained（预训练）

预训练是深度学习领域的一种方法，通过对大数据进行训练，学习知识的特征训练成基础模型，然后针对特定业务进行微调。

T代表Transformer（变换器）

Transformer是自然语言处理中的一种神经网络结构，它通过自注意力（Self-Attention）机制有效捕捉上下文信息，处理长距离依赖关系，并实现并行计算。

不论是现在的chatGPT还是目前国内的大模型，都是基于Transformer，所以了解大模型我们绕不开Transformer。

注意力（Self-Attention）机制

注意力机制是一种用于帮助循环神经网络（RNN）处理更长序列或句子的技术。

谷歌在2017年发表的一篇论文《Attention Is All you Need》, 提到在注意力机制的使用方便取得了很大的进步，对Transformer模型做出了重大的改进。

我们可以理解为谷歌在2017年就搞了这玩意，并且取得了一定的成果，其中Transformer模型的核心算法就是注意力机制。不过很遗憾，搞出chatGPT的居然不是谷歌。

举个例子，假如我们需要将一个句子从一种语言翻译到另一种语言。逐词翻译的操作方式通常不可行，因为这会忽略每种语言独有的复杂语法结构和习惯用语，从而导致出现不准确或无意义的翻译结果。而注意力机制让模型在每个时间步骤都能访问所有序列元素，其中的关键在于选择性，也就是确定在特定上下文中哪些词最重要。

Model Architecture（模型体系结构）

这个东西我也只能了解一个大概，不过我们只要了解这是神经序列转导模型的一个编码器和一个解码器，Transformer就是靠这个来计算的，我把网上查到的介绍和图贴在下面，能理解多少，看大家的造化吧。

大多数具有争议的自然序列转导模型都具有编码器-解码器结构[5，2，35]。在此，编码器将符号表示形式（x 1，…，x n）的输入序列映射到连续表示形式z =（z 1，…，z n）的序列。给定z，则解码器然后一次生成一个元素的符号的输出序列（y 1，…，y m）。模型的每一步都是自动回归的[10]，在生成下一个时，会将先前生成的符号用作附加输入。Transformer遵循这种总体架构，对编码器和解码器使用堆叠式自注意力层和逐点，全连接层，分别如图1的左半部分和右半部分所示。

在这里说两句，人类真的很神奇，通过不同的笔画、不同的字母组成不同的字或单词，更以这些有限的字或单词，组成了表现无限种不同意思的句子，有时虽然字是相同的，意思是完全不一样的，举两个很简单的例子，“饿不”和“不饿”、“狗咬了你”和“你咬了狗”，字完全一样，但位置不一样意思就不一样，所以很多时候要从文字理解一句话的意思，甚至结合上下文来理解，这难度可想而知。据说，chatGPT仅在参数量上，就有千亿级的参数。还好，我们很幸运，这些高难度的东西有高个的已经帮我们搞定了，我们只需要躲在后面猥琐发展就好了。

大模型(LLM)

LLM是Large Language Model的缩写，下面贴上来自UC伯克利最新LLM大模型排行。

当然这里前 3 名都闭源模型，后面开源模型，大多数也都是英文的模型。如果GPU资源充足（至少 A100*8），可以基于开源模型做中文的预训练，最后再 finetuning ，如果没有GPU资源的话，我们也可以选择开源的中文模型直接做微调。

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍