深度解析transformer(总结精华)

怪才铁头希

已于 2023-02-18 16:36:15 修改

阅读量286

点赞数

文章标签： tensorflow

于 2022-04-04 15:57:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41764371/article/details/123955001

版权

深度解析transformer(总结精华)

参考原博客：https://wmathor.com/index.php/archives/1438/
—

Encoder

在这里插入图片描述

1.Embedding

矩阵行表示有多少个次，列表示dimension(embedding的维度)

2. Positional Encoding

在这里插入图片描述

结论：随着维度方向增大，sin\cos的震幅会越来越平缓。

结论：随着维度增大，振幅会越来越平缓

2. Self Attention Mechanism

在这里插入图片描述

x1/x2/x3/…/xm表示word，q乘每个ki做softmax后，作为该word观察到各个word的权重。

C和x的维度一模一样

Q是nxd矩阵，K是nxd矩阵

self-attetion的计算复杂度：

为什么要除根号d？防止输入softmax的数过大，偏导数接近0，梯度消失
在这里插入图片描述

注意：Padding Mask

每个batch-size里面的维度应该是同样的
在这里插入图片描述

在这里插入图片描述

3.Add&Normalization

在这里插入图片描述
X_embedding就是浅绿色那个x1（X_position+X_word-embedding）

在这里插入图片描述

4.Feedforward

在这里插入图片描述

Decoder

在这里插入图片描述

1.Masked Self-Attention

前面的词看不到后面的
在这里插入图片描述

怪才铁头希

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度解析transformer(总结精华)

学习目标：提示：这里可以添加学习目标例如：一周掌握 Java 入门知识学习内容：提示：这里可以添加要学的内容例如：搭建 Java 开发环境掌握 Java 基本语法掌握条件语句掌握循环语句学习时间：提示：这里可以添加计划学习的时间例如：周一至周五晚上 7 点—晚上9点周六上午 9 点-上午 11 点周日下午 3 点-下午 6 点学习产出：提示：这里统计学习计划的总量例如：技术笔记 2 遍 CSDN 技术博客 3 篇习的 vlog 视频 1
复制链接

扫一扫

怪才铁头希 CSDN认证博客专家 CSDN认证企业博客

码龄6年

1: 原创

140万+: 周排名

194万+: 总排名

286: 访问

: 等级

10: 积分

1: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

深度解析transformer(总结精华) 286

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。