transformer encoder整体结构梳理

最新推荐文章于 2024-05-13 12:07:16 发布

有梦想有行动

最新推荐文章于 2024-05-13 12:07:16 发布

阅读量1.2k

点赞数 3

文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/CSDN_of_ding/article/details/107529997

版权

transformer encoder整体结构梳理

在这里插入图片描述

下面用公式把一个transformer block的计算过程整理一下：
（1）字向量与位置编码：
$X = E m b e d d i n g L o o k u p (X) + P o s i t i o n a l E n c o d i n g$
$X\in R^{batch size * seq.len.*embed.dim.}$
(2) 字注意力机制：
$Q = Linear(X)=XW_Q$
$K = Linear(X)=XW_K$
$V = Linear(X)=XW_V$
$X_{attention}=SelfAttention(Q,K,V)$
(3) 残差连接与Layer Normalization:
LayerNormalization的作用是把神经网络中隐藏层归一为标准正态分布，也就是i.i.d独立同分布，以起到加快训练速度，加速收敛的作用。
$X_{attention}=X+X_{attention}$
$X_{attention}=LayerNorm(X_{attention})$
(4)FeedForward，其实就是两层线性映射并用激活函数激活，比如说ReLU:
$X_{hidden}=Activate(Linear(Linear(X_{attention})))$
(5) 重复（3），可以重复N次，N表示transformer block的个数:
$X_{hidden}=X_{attention}+X_{hidden}$
$X_{hidden}=LayerNorm(X_{hidden})$
$X_{hidden}\in R^{batch size * seq.len.*embed.dim.}$

以上就是transformer的编码器的部分，值得注意一点是，经过自注意力机制，一句话中的每个字都含有这句话中其他所有字的信息，那么我们可以添加一个空白字符到句子的最前面，让句子中的所有信息向这个空白字符（hidden state）汇总，然后再映射成想要分的类别。

有梦想有行动

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
transformer encoder整体结构梳理

transformer encoder整体结构梳理下面用公式把一个transformer block的计算过程整理一下：（1）字向量与位置编码：X=EmbeddingLookup(X)+PositionalEncodingX=EmbeddingLookup(X)+PositionalEncoding X=EmbeddingLookup(X)+PositionalEncodingX∈Rbatchsize∗seq.len.∗embed.dim. X\in R^{batch size * seq.len
复制链接

扫一扫