Transformer详解

cv2016_DL

于 2024-06-28 14:04:36 发布

阅读量945

点赞数 32

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012374012/article/details/140041290

版权

Transformer 模型是深度学习中一种「基于注意力机制」的模型，广泛应用于自然语言处理（NLP）任务，如机器翻译、文本生成和问答系统。

它由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中提出，突破了传统序列模型（如RNN和LSTM）的限制，特别是在长距离依赖问题上表现出色。它是 ChatGPT 和所有其他 LLM 的支柱。

https://arxiv.org/pdf/1706.03762

1.模型架构

Transformer 模型由编码器（Encoder）和解码器（Decoder）组成。编码器和解码器各由 N 层相同的子层堆叠而成。

以下是编码器和解码器的详细结构。

1.1编码器（Encoder）

每层编码器包含两个子层：

多头自注意力机制（Multi-Head Self-Attention）
前馈神经网络（Feed-Forward Neural Network）

1.2解码器（Decoder）

每层解码器包含三个子层：

多头自注意力机制（Multi-Head Self-Attention）
编码器-解码器注意力机制（Encoder-Decoder Attention）
前馈神经网络（Feed-Forward Neural Network）

2.Transformer 核心组件

下面，让我们来看看 Transformer 如何将输入文本序列转换为向量表示，又如何逐层处理这些向量表示得到最终的输出。

2.1.输入编码

和常见的 NLP 任务一样，我们首先会使用词嵌入算法（word embedding），将输入文本序列的每个词转换为一个词向量。实际应用中的向量一般是 256 或者 512 维。但为了简化起见，我们这里使用 4 维的词向量来进行讲解。

如下图所示，假设我们的输入文本是序列包含了 3 个词，那么每个词可以通过词嵌入算法得到一个 4 维向量，于是整个输入被转化成为一个向量序列。

2.2位置编码

由于 Transformer 模型依赖于自注意力机制，而自注意力机制本质上是无序的，即它不区分输入序列中各个词的位置顺序，因此需要显式地引入位置信息来帮助模型理解序列的顺序关系。

位置编码的具体实现方式有多种，Transformer 模型中采用了一种基于正弦和余弦函数的方式。

对于输入序列中的每个位置 pos 和每个维度 i，位置编码向量的计算公式如下。

其中：

pos 表示序列中词语的位置。
i 表示位置编码向量的维度索引。
<

最低0.47元/天解锁文章

关注

32
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Transformer详解

批量标准化是对一个批次中的所有样本进行标准化处理，它是对一个批次中的所有样本的每一个特征进行归一化。而层标准化是对每个样本的所有特征进行标准化处理，独立于同一批次中的其他样本。层标准化的优点是不受批量大小的影响，可以在小批量甚至单个样本上工作。更适合序列数据。
复制链接

扫一扫

博客等级

码龄11年

120
原创

1014
点赞

894
收藏

957
粉丝

关注

私信

热门文章

分类专栏

最新评论

Ubuntu切换账号出现错误MoTTY X11 proxy: Unsupported authorisation protocol
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
HalconMFC(一)之多版本配置
cv2016_DL: 选中就可以看到了，这是比较老的做法了，可以看看最新的方法
HalconMFC(一)之多版本配置
虚假程序设计: 白底*字看不见
基于面部特征识别的疲劳检测系统设计实现
m0_66290127: 博主，可以能提供一份代码吗，谢谢博主 283137791@qq.com
机器人视觉识别技术简介
iuiuuiuiui: 听说重建大师有个云平台建模，有人用过吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。