大模型学习笔记：从基础原理到实战应用，零基础也能入门大模型！

最新推荐文章于 2024-09-28 20:34:52 发布

程序员维他命

最新推荐文章于 2024-09-28 20:34:52 发布

阅读量733

点赞数 15

文章标签：学习笔记 llama 人工智能数据库语言模型网络

本文链接：https://blog.csdn.net/h1453586413/article/details/142613799

版权

一、认识大模型

1.1 从人工智能到大模型的演变

学完本文后，你将能够：

掌握大模型的特点、重要概念以及工作方式
了解大模型的基本概况和产品矩阵
了解大模型，尤其是大语言模型的应用场景和示例

大模型是人工智能领域的一个重要里程碑，它推动了人工智能技术的发展，并为人类的未来带来新的可能性。有人曾经类比，大模型的发明相当于人类文明的哪个节点？一个浪漫的答案可能是：人类学会使用火的时刻。

人工智能按照技术实现的不同可被划分为多个子领域，各个子领域之间往往相互关联和影响。

1、机器学习

机器学习(Machine Learning，ML).机器学习是一门研究计算机如何在没有明确编程的情况下，通过对数据进行分析、学习，自动改进其行为或做出预测的学科。关键概念:监督学习、无监督学习、强化学习

机器学习旨在使计算机系统具备从经验中学习的能力，以适应新情况、解决问题或完成特定任务。
机器学习可以分为监督学习、无监督学习与强化学习，以教一个孩子区分不同的水果为例:
监督学习与无监督学习都需要你明确地告诉机器(或者说孩子)数据的特征(形状与颜色)是什么。
监督学习的工作模式为:你拿着一个苹果和一个香蕉，告诉孩子:“这是苹果，它的形状是圆的，颜色通常是红色或绿色;这是香蕉，它的形状是长条形，颜色通常是黄色。”孩子会学习到特征与类别的对应关系，预测出新拿出的水果是苹果还是香蕉。监督学习需要在机器进行学习时人为提供数据对象的类别(如苹果或香蕉)。
无监督学习的工作模式为:你让孩子观察一堆水果，没有直接告诉他每一个水果的名称。无监督学习一般没有预设的类别标识，通过机器自动学习数据的分布并将相似的数据对象归为同类(如红色圆形是苹果)。
强化学习的工作模式为:你不会直接教孩子苹果和香蕉的区别，而是每次展示一个水果让他进行判断。如果他判断正确，就给他一个奖励(比如一块糖果);如果判断错误，则不给奖励。通过反复尝试和反馈，孩子会通过这种奖励机制逐渐学习到如何更准确地判断苹果和香蕉。这种学习过程中的关键在于孩子需要在探索新的判断方法和利用已有经验之间找到平衡，以最大化获得奖励的次数。

2、深度学习

深度学习是机器学习的一个分支，主要使用神经网络模型(由多个隐藏层组成)对数据进行学习和表示。深度学习算法试图模拟人类大脑的工作方式，其灵感来源于神经生物学，它通过对大量数据的学习，自动提取出数据的高层次特征和模式，从而实现图像识别、语音识别、自然语言处理等任务。按照架构的不同，神经网络可以分为:卷积神经网络(CNNS)、循环神经网络(RNNs)、Transformer网络等等。关键概念:神经网络、CNNS、RNNs、Transformer

同样是区分不同水果，这次你带着孩子去了超市，那里有各种不同的水果。你没有解释每种水果的特点，只是给孩子指出了哪些是苹果哪些是香蕉，他通过观察和比较，慢慢学会了辨认各种水果。在这个过程中，孩子的大脑(在这里比喻为深度学习模型)自动从复杂的视觉、嗅觉等信号中提取层次化的特征，比如圆形、条纹、颜色深浅、气味等，从而达到识别水果的目的。

3、生成式人工智能

生成式人工智能(Generative Al)生成式人工智能又是深度学习中快速增长的子集，23 年热门模型和应用 ChatGPT、StableDiffusion 等都属于生成式人工智能领域，它们使用了大模型提供支持，在大量原始、未标记的数据基础上对深度学习模型进行预训练，使得机器能够“理解”语言甚至图像，并能够根据需要自动生成内容。而在这一领域，阿里云提供了能帮助 AI开发所需的一系列工具和所需的模型，无论你是模型开发者、模型应用人员或是使用 AI用户，都可以根据自己及企业的具体需求灵活地选择 AI 服务。

1.2 大模型，它来了！

2021年，斯坦福大学的研究员团队发表了一篇论文，提出了Foundational Models（基础模型，即大模型）的概念。简单来说，它是一类具有大量参数（通常在十亿以上），能在极为广泛的数据上进行训练，并适用于多种任务和应用的预训练深度学习模型。

大模型通过广泛数据集的训练后，可以适用于多种多样的需求

2022年11月，OpenAI公司发布了ChatGPT——一种先进的人工智能语言模型，专为对话交互而设计，具有强大的自然语言理解和生成能力，可以完成撰写论文、邮件、脚本、文案、翻译、代码等任务。ChatGPT的发布标志着AI大模型在语言理解与生成能力上的重大突破，对全球AI产业产生了深远影响，开启了人工智能大模型应用的新篇章。

大模型是如何通过训练得到的，可以看下边这张图：

大模型的训练整体上分为三个阶段：预训练、SFT（监督微调）以及RLHF（基于人类反馈的强化学习）。

1、预训练

预训练（Pre-training）：预训练的过程类似于从婴儿成长为中学生的阶段，在这个阶段我们会学习各种各样的知识，我们的语言习惯、知识体系等重要部分都会形成；对于大模型来说，在这个阶段它会学习各种不同种类的语料，学习到语言的统计规律和一般知识。但是大模型在这个阶段只是学会了补全句子，却没有学会怎么样去领会人类的意图，假设我们向预训练的模型提问：“埃菲尔铁塔在哪个国家？”模型有可能不会回答“法国”，而是根据它看到过的语料进行输出：“东方明珠在哪个城市？”这显然不是一个好的答案，因此我们需要让它能够去遵循人类的指示进行回答，这个步骤就是SFT（监督微调）。

人类成长的过程实质上是不断预训练的过程，这与机器的预训练过程略有不同。

2、监督微调

监督微调（SFT，Supervised Fine Tuning）：SFT的过程类似于从中学生成长为大学生的阶段，在这个阶段我们会学习到专业知识，比如金融、法律等领域，我们的头脑会更专注于特定领域。对于大模型来说，在这个阶段它可以学习各种人类的对话语料，甚至是非常专业的垂直领域知识，在监督微调过程之后，它可以按照人类的意图去回答专业领域的问题。这时候我们向经过SFT的模型提问：“埃菲尔铁塔在哪个国家？”模型大概率会回答“法国”，而不是去补全后边的句子。这时候的模型已经可以按照人类的意图去完成基本的对话功能了，但是模型的回答有时候可能并不符合人类的偏好，它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论，这时候我们就需要对模型进行RLHF（基于人类反馈的强化学习）。

3、基于人类反馈的强化学习

基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback）：RLHF的过程类似于从大学生步入职场的阶段，在这个阶段我们会开始进行工作，但是我们的工作可能会受到领导和客户的表扬，也有可能会受到批评，我们会根据反馈调整自己的工作方法，争取在职场获得更多的正面反馈。对于大模型来说，在这个阶段它会针对同一问题进行多次回答，人类会对这些回答打分，大模型会在此阶段学习到如何输出分数最高的回答，使得回答更符合人类的偏好。

1.3 大模型的特点

基础模型（大模型）主要有以下四个特点：

1.4 大模型的分类

按照应用场景，大模型可以大致分为以下四类：大语言模型(LLM)、多模态模型、计算机视觉模型、音频处理模型

1、大语言模型

大语言模型（LLM）：这类大模型专注于自然语言处理（NLP），旨在处理语言、文章、对话等自然语言文本。

它们通常基于深度学习架构（如Transformer模型），经过大规模文本数据集训练而成，能够捕捉语言的复杂性，包括语法、语义、语境以及蕴含的文化和社会知识。

语言大模型典型应用包括文本生成、问答系统、文本分类、机器翻译、对话系统等。示例包括：

GPT系列（OpenAI）：如GPT-3、GPT-3.5、GPT-4等。
Bard（Google）：谷歌推出的大型语言模型，用于提供信息丰富的、有创意的文本输出。
通义千问（阿里云）：阿里云自主研发的超大规模的语言模型。

2、多模态模型

多模态模型：多模态大模型能够同时处理和理解来自不同感知通道（如文本、图像、音频、视频等）的数据，并在这些模态之间建立关联和交互。

它们能够整合不同类型的输入信息，进行跨模态推理、生成和理解任务。多模态大模型的应用涵盖视觉问答、图像描述生成、跨模态检索、多媒体内容理解等领域。

视觉+文本：包括VQA视觉问答，图像字幕，图文检索、文生图等应用。
音频+文本：包括语音生成、语音摘要、语音识别等应用。
音频+视觉：包括音生图、演讲人脸生成等应用。

1.5 阿里云的大模型探索

通义千问是阿里云自主研发的超大规模的语言模型，致力于实现类人智慧的通用智能，在复杂指令理解、文学创作、通用数学、代码理解生成、知识记忆等能力上均达到领先水平。它可以与用户进行多轮对话，支持多种语言，还能处理多种分辨率和规格的图像，实现多语言多模态理解。

1、通义大模型产品家族

2、百炼大模型服务平台

百炼大模型服务平台是基于阿里云通义大模型构建的，面向企业开发者、个人开发者及ISV合作伙伴提供通义系列大模型、三方大模型等调用、模型训练开发及大模型应用构建的服务平台。提供完整的模型训练工具和全链路开发套件，预置丰富的应用插件，提供便捷的集成方式，结合企业专属数据和 API，帮企业高效完成大模型应用构建。

1.6 大模型是如何工作的

大模型的工作流程可以分为两部分，第一部分是分词化与词表映射，第二部分为生成文本。

1、分词与词表映射

分词化（Tokenization）是自然语言处理（NLP）中的重要概念，它是将段落和句子分割成更小的分词（token）的过程。举一个实际的例子，以下是一个英文句子：

I want to study ACA.

为了让机器理解这个句子，对字符串执行分词化，将其分解为独立的单元。使用分词化，我们会得到这样的结果:

[‘I’ ,‘want’ ,‘to’ ,‘study’ ,‘ACA’ ,‘.’]

将一个句子分解成更小的、独立的部分可以帮助计算机理解句子的各个部分，以及它们在上下文中的作用，这对于进行大量上下文的分析尤其重要。分词化有不同的粒度分类：

词粒度（Word-Level Tokenization）分词化，如上文中例子所示，适用于大多数西方语言，如英语。
字符粒度（Character-Level）分词化是中文最直接的分词方法，它是以单个汉字为单位进行分词化。
子词粒度（Subword-Level）分词化，它将单词分解成更小的单位，比如词根、词缀等。这种方法对于处理新词（比如专有名词、网络用语等）特别有效，因为即使是新词，它的组成部分（子词）很可能已经存在于词表中了。

每一个token都会通过预先设置好的词表，映射为一个 token id，这是token 的“身份证”，一句话最终会被表示为一个元素为token id的列表，供计算机进行下一步处理。

这两句话包含了16个tokens

2、大语言模型生成文本的过程

大语言模型的工作概括来说是根据给定的文本预测下一个token。对我们来说，看似像在对大模型提问，但实际上是给了大模型一串提示文本，让它可以对后续的文本进行推理。

大模型的推理过程不是一步到位的，当大模型进行推理时，它会基于现有的token，根据概率最大原则预测出下一个最有可能的token，然后将该预测的token加入到输入序列中，并将更新后的输入序列继续输入大模型预测下一个token，这个过程叫做自回归。直到输出特殊token（如，end of sentence，专门用来控制推理何时结束）或输出长度达到阈值