16 Transformer 的编码器（Encodes）——我在做更优秀的词向量

沧海之巅

已于 2023-10-22 09:55:49 修改

阅读量161

点赞数

分类专栏：数字孪生管理体系数据中台文章标签： transformer 深度学习人工智能

于 2023-10-21 16:57:43 首次发布

沧海之巅

本文链接：https://blog.csdn.net/linjie_830914/article/details/133963595

版权

管理体系同时被 3 个专栏收录

72 篇文章 38 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

44 篇文章 5 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

21 篇文章 10 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

Transformer 框架

seq（编码器）2seq（解码器）

通过编码器对序列进行向量化（词向量）
把词向量输入到解码器，得到结果（生成单词）

编码器概略图

编码器包括两个子层，Self-Attention、Feed Forward

每一个子层的传输过程中都会有一个（残差网络+归一化）

编码器详细图

Thinking

–》得到绿色的 x1（词向量，可以通过 one-hot、word2vec 得到）+ 叠加位置编码（给 x1 赋予位置属性）得到黄色的 x1

–》输入到 Self-Attention 子层中，做注意力机制（x1、x2 拼接起来的一句话做），得到 z1（x1 与 x1，x2拼接起来的句子做了自注意力机制的词向量，表征的仍然是 thinking），也就是说 z1 拥有了位置特征、句法特征、语义特征的词向量

–》残差网络（避免梯度消失，w3(w2(w1x+b1)+b2)+b3，如果 w1&#

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
16 Transformer 的编码器（Encodes）——我在做更优秀的词向量

》Feed Forward，Relu（w2(w1x+b1)+b2），（前面每一步都在做线性变换，wx+b，线性变化的叠加永远都是线性变化（线性变化就是空间中平移和扩大缩小），通过 Feed Forward中的 Relu 做一次非线性变换，这样的空间变换可以无限拟合任何一种状态了），得到 r1（是 thinking 的新的表征）1，x 就没了，【w3(w2(w1x+b1)+b2)+b3+x】），归一化（LayerNorm），做标准化（避免梯度爆炸），得到了深粉色的 z1。seq（编码器）2seq（解码器）
复制链接

扫一扫

专栏目录

沧海之巅 CSDN认证博客专家 CSDN认证企业博客

码龄17年

224: 原创

4万+: 周排名

5万+: 总排名

35万+: 访问

: 等级

2592: 积分

335: 粉丝

128: 获赞

54: 评论

502: 收藏

私信

关注

热门文章

分类专栏

最新评论

11 Self-Attention相比较 RNN和LSTM的优缺点
白话机器学习: 内容丰富图文并茂，认真看完收获很大。思路清晰细节满满，支持大佬优质好文。
博哥爱运维教程&视频
沧海之巅: 链接：https://pan.baidu.com/s/1DKDulbwXmenEqcjPMRDgYg?pwd=epvq 提取码：epvq
博哥爱运维教程&视频
沧海之巅: 链接：https://pan.baidu.com/s/1DKDulbwXmenEqcjPMRDgYg?pwd=epvq 提取码：epvq
博哥爱运维教程&视频
盛世阑珊_: 链接失效了，能私发一份吗
ChatGLM2_6b安装
手法king: 通俗易懂，简洁明了，写的很详细有很多不懂的地方都很容易理解，支持加油

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

沧海之巅 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。