Transformer基本结构介绍

原创于 2025-07-19 10:25:53 发布 · 241 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #机器学习

人工智能专栏收录该内容

12 篇文章

订阅专栏

Transformer架构是自然语言处理领域一种非常重要的深度学习架构，主要有编码器和解码器两部分组成，核心特点是通过注意力机制来处理输入和输出之间的映射。

每个编码器由多个相同的编码层构成
编码层主要包含多头注意力机制，层归一化，残差连接，全连接网络，位置编码这几部分
注意力机制会计算输入序列每个元素的重要性权重，然后加权求和得出上下文向量，多头注意力机制则是将一个输入转换成多个子空间，分别计算元素权重并加权求和，最后将结果拼接成完整输出，这个过程类似于卷积核在输入矩阵上的滑动计算

解码器由多个相同的解码层构成，解码层与编码层类似，不同点在于解码层注意力机制用了掩码，目的是防止当前位置信息对未来的位置信息产生依赖，同时多了一层多头注意力机制层(这一层没用掩码)进行整合输出
层归一化，残差连接是为了稳定梯度及训练的稳定性
全连接网络是为了进行特征整合及输出大小的转换
位置编码是记录词序列中的位置信息，更加准确的计算相似度及词的权重信息

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。