transformer维度变化，图中直观表现

BigWig杰克爱

于 2024-07-10 11:10:46 发布

阅读量852

点赞数 5

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43572514/article/details/136854497

版权

transformer维度变化，图中直观表现

Transformer分为两阶段：训练，推理：

Transformer分为两阶段：训练，推理：

训练阶段：

Encoder部分：

输入维度为 [batch_size, seq_len]，经过embedding之后纬度变为：
[batch_size, seq_len, hidden_size]，加上一样维度的position_embedding，使得进入多头注意力的维度为 [batch_size, seq_len, hidden_size] ，经过三个W，Wq，Wk，Wv，得到q, k, v矩阵，由于是多头，在每个头中的维度为
[batch_size, seq_len, hidden_size / 8] ，多头注意力的输出维度也和输入一样，然后进入FFN，首先经过升维线性层：[batch_size, seq_len, high]，经过ReLU激活函数，维度不变，第三步经过降维线性层，维度与输入FFN的维度对齐：
[batch_size, seq_len, hidden_size]，

Decoder部分：

推理阶段：

训练阶段图片

链接:

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。