Transformer动画讲解：数据处理的四大关键步骤

黑客-雨

于 2024-06-02 12:00:00 发布

阅读量922

点赞数 9

文章标签： transformer 深度学习人工智能 AI大模型 AI技术自然语言处理语言模型

本文链接：https://blog.csdn.net/2401_84204207/article/details/139358087

版权

Transformer 大模型，一种基于自注意力机制的神经网络架构，已被广泛应用于各种自然语言处理任务，比如：机器翻译、文本摘要、生成问答等。

从端到端的角度来看，Transformer 大模型中数据的处理流程主要包括四个阶段：首先是嵌入阶段（Embedding），随后是注意力机制阶段（Attention），然后是通过多层感知机（MLPs）进行处理，最后是从模型的表示转换到最终输出的解嵌入阶段（Unembedding），如下图所示：

图：Embedding -> Attention -> MLPs -> Unembedding

下面是对这四个阶段的简要介绍。

Embedding（嵌入）阶段

大模型的输入通常由离散的词汇或符号组成（比如：在英文文本中，每个单词或标点符号都是一个单独的符号）。嵌入层的作用是将这些离散的符号转换成连续的、具有固定维度的向量（通常称为词嵌入）。这些向量能够捕获符号的语义以及上下文信息。

在Transformer 大模型中，无论是编码器（Encoder）还是解码器（Decoder），都包含一个嵌入层。此外，在解码器中，还会添加一个位置嵌入（Positional Embedding）层，用于记录序列中单词的位置信息，这是因为 Transformer 大模型不通过 RNN 或 CNN 等传统结构来直接捕捉序列的顺序信息。

Attention （注意力机制）阶段

注意力机制构成了 Transformer 大模型的基石，它使得大模型能够在产生当前输出时聚焦于输入序列中的各个部分。Transformer 大模型采用了多种类型的注意力机制，其中包括自注意力（Self-Attention）、编码器-解码器注意力（Encoder-Decoder Attention）以及掩码多头注意力（Masked Multi-Head Attention）。

自注意力机制使得大模型能够识别序列内不同位置之间的相互关系，进而把握序列的内在结构。编码器-解码器注意力机制则使得大模型在输出生成过程中能够针对输入序列的特定部分给予关注。在注意力机制的运算过程中，会生成一个注意力权重矩阵，该矩阵揭示了输入序列中每个位置对于当前位置的贡献程度。

MLPs（多层感知机，也称为前馈神经网络）阶段

在注意力机制处理之后，大模型会利用一个或多个全连接层（也称为前馈网络或 MLPs）来进行更深层次的变换和特征提取。

这些全连接层能够捕捉输入数据中的非线性关系，并辅助模型识别更复杂的模式。在 Transformer 大模型中，MLPs 一般被置于自注意力层和归一化层之间，共同构成了所谓的“编码器块”或“解码器块”。

**—4**__—

****Unembedding（从模型表示到最终输出）阶段

这一过程可以被视作从大模型的内部表示到最终输出格式的转换。

在文本生成任务中，比如：机器翻译，解码器的输出将通过一个线性层和一个 Softmax 函数，以产生一个概率分布，该分布反映了下一个输出词（token）的概率。

而在其他类型的任务中，比如：文本分类，解码器的输出可能直接用于损失函数的计算（比如：交叉熵损失），或者通过其他方法转换成最终的预测结果。

为了帮助同学们彻底掌握 AI 大模型 Agent 智能体、知识库、向量数据库、 RAG、微调私有大模型的应用开发、部署、生产化。

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈
大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）
在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

黑客-雨

关注

9
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
Transformer动画讲解：数据处理的四大关键步骤

自注意力机制使得大模型能够识别序列内不同位置之间的相互关系，进而把握序列的内在结构。• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；
复制链接

扫一扫