AI大模型应用开发课程

Vincent_Zhang233

已于 2024-05-22 00:10:16 修改

阅读量1k

点赞数 5

文章标签：人工智能

于 2024-02-19 17:03:38 首次发布

本文链接：https://blog.csdn.net/vincent_zhang233/article/details/136172682

版权

国立人工智能学院专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一章：AI大模型科普

一、啥是AIGC以及一系列AI技术词汇

1、什么是AIGC？

AIGC的全称是AI Generated Content，即：AI生成内容的简写，包括AI生成的文本、代码、音频、视频、图片等。国外有一个词也很火，叫生成式AI（Generative AI），它俩的关系就是：生成式AI生成的内容就叫AIGC。

所以，像ChatGPT、Github Copilot、Midjourney、剪影、Stable Audio等工具都属于生成式AI（Generative AI），而它们生成的文本、代码、音频、视频、图片等内容就都属于AIGC（AI生成内容）。但因为AIGC这个词在国内比生成式AI（Generative AI）更加流行，在很多语境下AIGC也被用于指代生成式AI。

2、生成式AI和AI、机器学习、监督学习、无监督学习、强化学习、深度学习、大语言模型等等词汇之间的关系

1）AI

AI：也叫人工智能，是计算机科学下的一个学科，旨在让计算机系统去模拟人类的智能，从而解决问题和完成任务。

2）机器学习

机器学习：是AI的一个子集。它的核心在于不需要人类做显式编程，而是让计算机通过算法自行学习和改进，去识别模式、做出预测和决策。比如：如果我们通过代码告诉电脑，图片里有红色说明是玫瑰，图片里有黄色说明是向日葵，那么程序对于花种类的判断就是通过人类直接和明确编写逻辑达成的，不属于机器学习，机器啥也没学。但如果我们给电脑大量玫瑰和向日葵的图片，让电脑自行识别模式、总结规律，从而能对没见过的图片进行预测和判断，这种就是机器学习。

机器学习领域下有多个分支，包括监督学习、无监督学习、强化学习。

3）监督学习（属于机器学习）

监督学习：在监督学习里，机器学习算法会接受有标签的训练数据，“标签”就是期望的输出值。所以每个训练数据点都既包括输入特征，也包括期望的输出值。算法的目标是学习输入和输出之间的映射关系，从而在给定新的输入特征后，能够准确预测出相应的输出值。经典的监督学习任务包括：分类（就是把数据划分为不同的类别）、回归（就是对数值进行预测）。

分类任务举例：比如拿一堆猫猫狗狗的照片，和照片对应的“猫”、“狗”标签进行训练，然后让模型去看没见过的照片，预测是猫还是狗。这就属于是分类。

回归任务举例：比如拿一些房子特征的数据，比如面积、卧室数、是否带阳台等，和相应的房价作为标签进行训练，然后让模型根据没见过的房子的特征预测这套房的价格。这就属于回归。

4）无监督学习（属于机器学习）

无监督学习：无监督学习和监督学习不同的是，它学习的数据是没有标签的，所以算法的任务是自主发现数据里的模式或规律。

经典的无监督学习任务包括：

聚类：就是把数据进行分组，比如拿一堆新闻文章，让模型根据主题或内容的特征自动把相似文章进行组织。

5）强化学习（属于机器学习）

强化学习：让模型在环境里采取行动，获得结果反馈，从反馈里学习，从而能在给定情况下采取最佳行动，来最大化奖励或最小化损失。就像训练小狗一样，刚开始小狗会随心所欲做出很多动作，但随着和训犬师的互动，小狗会发现某些动作能够获得零食，某些动作没有零食，某些动作甚至会遭受惩罚。通过观察动作和奖惩之间的联系，小狗的行为会逐渐接近训犬师的期望。

强化学习可以应用在很多任务上，比如让模型下围棋，获得不同行动导致的奖励或损失反馈，从而在一局局游戏里优化策略，学习如何采取行动达到高分。

6）深度学习（基于神经网络，是机器学习的一个方法，但不属于以上三种）

深度学习：深度学习不属于监督学习、无监督学习、强化学习中的任何一类。深度学习是机器学习的一个方法，核心在于使用人工神经网络，模仿人脑处理信息的方式，通过层次化的方法，提取和表示数据的特征。神经网络是由许多基本的计算和存储单元组成，这些单元被称为神经元。这些神经元通过层层链接来处理数据，并且深度学习模型通常有很多层，因此称之为“深度”。

比如要让计算机识别小猫的照片，在深度学习中，数据首先被传递到一个输入层，就像人类的眼睛看到图片一样。然后，数据通过多个隐藏层，每一层都会对数据进行一些复杂的数学运算，来帮助计算机理解图片中的特征，例如小猫的耳朵、眼睛等等。最后，计算机会输出一个答案，表明这是否是一张小猫的图片。

神经网络可以用于监督学习、无监督学习、强化学习，所以深度学习不属于它们的子集。

7）生成式AI

生成式AI：是深度学习的一种应用，它利用神经网络来识别现有内容的模式和结构，学习生成新的内容。内容形式可以是文本、音频、图片等等。

8）大语言模型

大语言模型：也叫LLM（Large Language Model），也是深度学习的一种应用，专门用于进行自然语言处理任务。

大语言模型里的“大”字说明模型的参数量非常大，可能有数十亿甚至到万亿个，而且训练过程中也需要海量文本数据集。所以能更好地理解自然语言以及生成高质量的文本。大语言模型的例子非常多，比如国外的GPT、LLaMA，国内的ERNIE、ChatGLM等，可以进行文本的理解和生成。

以GPT3这个模型为例，它会根据输入提示以及前面生成过的词，通过概率计算，逐步生成下一个词或token，来输出文本序列。如下图👇所示

但不是所有的生成式AI都是大语言模型。比如生成图像的扩散模型就不是大语言模型，它并不输出文本

而所有的大语言模型是否都是生成式AI这也存在些许争议。这是因为有些大语言模型由于其架构特点，不适合进行文本生成。比如谷歌的BERT模型，它的参数量和训练数据量很大，属于大语言模型，在应用方面，BERT理解上下文的能力很强，因此被谷歌用在搜索上，用来提高搜索排名和信息摘录的准确性。它也被用于情感分析、文本分类等任务。但同时，BERT不擅长文本生成，特别是连贯的长文本生成。所以有些人认为此类模型不属于生成式AI的范畴。

以上这些概念共同构成了生成式AI的核心要素。

二、啥是大语言模型（LLM）

大语言模型，也叫LLM（Large language Model），是用于做自然语言相关任务的深度学习模型。给模型一些文本内容输入，它能返回相应的输出，完成的具体任务可以是生成、分类、总结、改写等等。

大语言模型首先需要通过大量文本进行无监督学习。以GPT3为例，它的训练数据有多个互联网文本语料库，覆盖线上书籍、新闻文章、科学论文、维基百科、社交媒体帖子等等，借助海量的训练文本数据，模型能更多地了解单词与上下文之间的关系，从而更好地理解文本的含义，并生成更准确的预测。但大语言模型的“大”指的不仅仅是训练数据巨大，而是参数数量巨大。“参数”是模型内部的变量，可以理解为是模型在训练过程中学到的知识。参数决定了模型如何对输入数据做出反应，从而决定模型的行为。

在过去的语言模型研究中发现，用更多的数据和算力来训练具有更多参数的模型，很多时候能带来更好的模型表现。这就像要AI学习做蛋糕，只允许AI调整面粉、糖、蛋的量，和允许AI调整面粉、糖、蛋、奶油、牛奶、苏打粉、可可粉的量以及烤箱的时长和温度，后者由于可以调整的变量更多，更能让AI模仿作出更好吃的蛋糕。随着参数的增加，它甚至有能力做出别的玩意儿（比如pizza），创造出一些全新的品种。所以如今语言模型的参数数量可能是曾经的数万倍甚至数百万倍。以OpenAI的第一个大模型GPT-1为例，它有1.17亿个参数，到了GPT-2，参数有15亿个，而GPT-3的参数又增长到了1750亿个，这让大模型不像小模型那样局限于单项或某几项任务，而是拥有更加广泛的能力。比如在这之前我们可能要训练单独的模型分别去做总结、分类、提取等等任务，但现在一个大模型就可以搞定一切。像ChatGPT、Claude、文心一言、通义千问等AI聊天助手都是基于大语言模型的应用。

如果说2022年底是ChatGPT的惊艳亮相是大语言模型公众认知被显著提升的里程碑，那它技术发展的里程碑要回溯到2017年谷歌团队发表的论文《Attention Is All You Need》提出了Transformer架构，自此自然语言处理的发展方向被改变了。随后出现了一系列基于Transformer架构的模型。2018年OpenAI发布了ChatGPT1.0，谷歌发布BERT；2019年OpenAI发布GPT2.0，百度发布ERNIE1.0等等。所以大语言模型的发展早就如火如荼了，并不是像很多人以为的到2022年才有所突破。但因为ChatGPT直接向公众开放，而且能让用户在网页上用对话的方式进行交互，体验很流畅丝滑，大众的目光才被吸引过去。

ChatGPT背后的模型GPT首字母分别表示Generative Pre-trained Transformer（生成式预训练Transformer），也表明Transformer是其中的关键。所以要了解大语言模型，就无法跳过Transformer。在Transformer架构被提出来之前，语言模型的主流架构主要是循环神经网络，简称RNN，RNN按顺序逐字处理，每一步的输出取决于先前的隐藏状态和当前的输入，要等上一个步骤完成后才能进行当前计算，因此无法并行计算，训练效率低。而且由于RNN的架构特点，RNN不擅长处理长序列（长文本），因为词之间举例越远，前面对后面的影响越弱，所以它很难捕获到长距离的语义关系。但是在人类自然语言中，依赖信息距离较远是很常见的情况，比如下图中预测这句话的关键是距离很远的“广东”，如果用RNN生成后续内容，它可能已经把前面信息忘没了。

为了捕获长距离依赖性，后来也出现了RNN的改良版本LSTM（长短期记忆网络），但是这也并没有解决传统RNN无法并行计算的问题，而且在处理非常长的序列时也依然受到限制。

后来，Transformer就出现了，它有能力学习输入序列里所有词的相关性和上下文，不会受到短时记忆的影响。能做到这一点的关键在于Transformer的自注意力机制，也正如论文标题所说的——Attention Is All You Need（注意力就是你所需要的一切）。简单来说，Transformer在处理每个词的时候，不仅会注意这个词的本身以及它附近的词，还会注意输入序列里所有其他的词，然后给予每个词不一样的注意力权重，权重是模型在训练过程中通过大量文本逐渐习得的，因此Transformer有能力知道当前这个词和其他词的相关性有多强，然后去专注输入里真正重要的部分，即使这两个词的位置隔得很远，Transformer依然可以捕获到它们之间的依赖关系。比如下面这个例子，“it”可以指street，也可以指离得更远的animal，而自注意力机制捕获到了it和animal之间更强的关系，因此权重更集中在animal上。