NLP-生成模型-2017-Transformer（二）：Transformer各模块代码分析

u013250861

已于 2024-02-14 13:58:39 修改

阅读量2k

点赞数

分类专栏： # LLM/Transformer 文章标签： Transformer

于 2022-05-03 19:55:16 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/124560428

版权

LLM/Transformer 专栏收录该内容

40 篇文章 13 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文深入剖析Transformer模型，重点讨论WordEmbedding层、位置编码器和自注意力机制，包括Padding Mask和Sequence Mask在Transformer中的作用。详细分析了如何利用位置编码捕获序列信息，以及在Decoder中防止信息泄露的Subsequent Mask。

摘要由CSDN通过智能技术生成

一、WordEmbedding层模块（文本嵌入层）

Embedding Layer（文本嵌入层）的作用：无论是源文本嵌入还是目标文本嵌入，都是为了将文本中词汇的数字表示转变为向量表示, 由一维转为多维，希望在高维空间捕捉词汇间的关系.

文本中的单词在输入到文本嵌入层之前，已经通过word2index操作转换为数值【每个单词用该单词在所在词汇表中的序号表示】，将字符串形式的单词转为序号形式，然后输入到文本嵌入层。
再通过文本嵌入层将每个单词的一维的数值型序号转为多维向量。

import torch  # 导入必备的工具包
import torch.nn as nn  # 预定义的网络层torch.nn, 工具开发者已经帮助我们开发好的一些常用层【比如，

了解本专栏

超级会员免费看

u013250861

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录