创新项目实训纪实——初识大模型-CSDN博客

本文链接：https://blog.csdn.net/2301_76375276/article/details/146285228

大模型的演变

1、人工智能：人工智能是一个广泛涉及计算机科学、数据分析、统计学、机器工程、语言学、神经科学、哲学和心理学等多个学科的领域。

2、生成式人工智能（AIGC）：生成式人工智能又是深度学习中快速增长的子集，它们使用了大模型提供支持，在大量原始、未标记的数据基础上对深度学习模型进行预训练，使得机器能够"理解"语言甚至图像，并能够根据需要自动生成内容。

机器学习的分类：监督学习，无监督学习，强化学习。

如今的大模型逐渐向多模态发展，可处理文字、视频、图像等多种模态。

大模型的训练

整体上有三个阶段：预训练，SFT（监督微调），RLHF（基于人类反抗的强化学习）

1、预训练：学习各种不同种类的语料，训练模型底层的的通用能力。

2、SFT：某个方向进行精修，学习到非常专业的垂直领域知识，使其可以按照人类的意图去回答专业领域问题。

3、RLHF：针对某一问题回答多次，并获得反馈，从而训练使得回答更加符合人类偏好。

大模型的分类

1、大语言模型（LLM)：

这类大模型专注于自然语言处理（NLP)，旨在处理语言、文章、对话等自然语言文本。它们通常基于深度学习架构（如Transformer模型）,经过大规模文本数据集训练而成，能够捕捉语言的复杂性，包括语法、语义、语境以及蕴含的文化和社会知识。语言大模型典型应用包括文本生成、问答系统、文本分类、机器翻译、对话系统等。

2、多模态大模型：

多模态大模型能够同时处理和理解来自不同感知通道（如文本、图像、音频、视频等）的数据，并在这些模态之间建立关联和交互。它们能够整合不同类型的输入信息，进行跨模态推理、生成和理解任务。多模态大模型的应用涵盖视觉问答、图像描述生成、跨模态检索、多媒体内容理解等领域。

大模型的工作流程

1、分词化与词表映射：

分词化（Tokenization）是自然语言处理（NLP）中的重要概念，它是将段落和句子分割成更小的分词（token）的过程。

举个栗子~：

比如我们输入“I love you.”

为了让机器理解这个句子，对字符串执行分词化，将其分解为独立的单元。使用分词化，我们会得到这样的结果：
['l' ,'love' ,'you' '.']

将一个句子分解成更小的、独立的部分可以帮助计算机理解句子的各个部分，以及它们在上下文中的作用，这对于进行大量上下文的分析尤其重要。

分词化有不同的粒度分类：

词粒度（Word-Level Tokenization）分词化，如上文中例子所示，适用于大多数西方语言，如英语。
字符粒度（character-level）分词化，这是中文最直接的分词方法，它是以单个汉字为单位进行分词化。
子词粒度（Subword-Level）分词化，它将单词分解成更小的单位，比如词根、词缀等。这种方法对于处理新词（比如专有名词、网络用语等）特别有效，因为即使是新词，它的组成部分很可能已经存在于词表中了。每一个token都会通过预先设置好的词表，映射为一个token id，这是token的"身份证",一句话最终会被表示为一个元素为token id的列表，供计算机进行下一步处理。

2、大语言模型生成文本：

大语言模型的工作概括来说是根据给定的文本预测下一个token。对我们来说，看似像在对大模型提问，但实际上是给了大模型一串提示文本，让他可以对后续的文本进行推理。大模型的推理过程不是一步到位的，当大模型进行推理时，它会基于现有的token，根据概率最大原则预测出下一个最有可能的token，然后将该预测的token加入到输入序列中，并将更新后的输入序列继续输入大模型预测下一个token，这个过程叫做自回归。直到输出特殊token（如＜EOS>,end of sentence，专门用来控制推理何时结束）或输出长度达到阈值。