Transformer基本结构介绍

Transformer架构是自然语言处理领域一种非常重要的深度学习架构,主要有编码器和解码器两部分组成,核心特点是通过注意力机制来处理输入和输出之间的映射。


每个编码器由多个相同的编码层构成
编码层主要包含多头注意力机制,层归一化,残差连接,全连接网络,位置编码这几部分
注意力机制会计算输入序列每个元素的重要性权重,然后加权求和得出上下文向量,多头注意力机制则是将一个输入转换成多个子空间,分别计算元素权重并加权求和,最后将结果拼接成完整输出,这个过程类似于卷积核在输入矩阵上的滑动计算


解码器由多个相同的解码层构成,解码层与编码层类似,不同点在于解码层注意力机制用了掩码,目的是防止当前位置信息对未来的位置信息产生依赖,同时多了一层多头注意力机制层(这一层没用掩码)进行整合输出
层归一化,残差连接是为了稳定梯度及训练的稳定性
全连接网络是为了进行特征整合及输出大小的转换
位置编码是记录词序列中的位置信息,更加准确的计算相似度及词的权重信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值