Transformer一图总览（方便记忆和查阅）

阿_牛

已于 2022-03-08 06:10:24 修改

阅读量1.5k

点赞数

分类专栏：深度学习文章标签： transformer 深度学习人工智能

于 2022-02-21 14:21:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iin729/article/details/123045913

版权

深度学习专栏收录该内容

3 篇文章 1 订阅

订阅专栏

Transformer architecture

在这里插入图片描述

Transformer architecture 参考论文Vaswani et al., 2017。

总览

Transformers是一种多层结构，由Transformer block相互堆叠而成。

Transformer block的组成

一个多头自注意机制（multi-head self-attention mechanism）
一个位置前馈网络（position- wise feed-forward network）
层规范化（layer normalization）（Ba等人，2016）模块
残差连接层（residual connectors）。

模型输入

input: a tensor of shape R^B × R^N, B is the batch size, N the sequence length.
embedding layer: input首先通过一个embedding layer，该embedding layer将每个one-hot token表示转换为d维嵌入，即R^B×R^N×R^D。

然后，新的张量与位置编码Positional encodings相加，并通过一个多头自我注意模块。

位置编码可以采用正弦输入的形式（根据（Vaswani等人，2017年））或可训练的嵌入trainable embeddings。

多头自我注意模块的输入和输出通过残差连接器和一层标准化层连接。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer一图总览（方便记忆和查阅）

图片来自论文Yi Tay etc.的《Efficient Transformers: A Survey》Transformer architectureTransformer architecture 参考论文Vaswani et al., 2017。总览Transformers是一种多层结构，由Transformer block相互堆叠而成。Transformer block的组成一个多头自注意机制（multi-head self-attention mechanism）一个位置前馈网
复制链接

扫一扫

专栏目录

阿_牛 CSDN认证博客专家 CSDN认证企业博客

码龄8年

62: 原创

7万+: 周排名

7万+: 总排名

70万+: 访问

: 等级

1068: 积分

45: 粉丝

100: 获赞

37: 评论

440: 收藏

私信

关注

热门文章

分类专栏

对话机器人 11篇
见闻 3篇
Python后端 20篇
笔记 6篇
pytorch 3篇
深度学习 3篇
Text2SQL 14篇
NLU 7篇
LeetCode笔记 3篇
数学之美 1篇
python+NLP 4篇
数据结构和算法 3篇
机器学习 11篇

最新评论

macbook air(M1 2020)安装graphviz和python pip或conda 安装pygraphviz
亦织: 强!!!可以了
岳阳长沙深圳市区中考和高考难度对比
看到我请叫我学习655: 啊
高斯分布、多维高斯分布、各向同性的高斯分布及多元高斯分布之间的KL散度
忍山: 采用以下方程从均值为 μ 标准差为 σ 的高斯分布中采样（再参数化技巧）啥意思？答：采用"再参数化技巧"（Reparameterization Trick），可以从均值为μ和标准差为σ的高斯分布中采样样本，这是深度学习中常用的一种技巧。通常，从高斯分布中采样样本是通过使用均值μ和标准差σ来生成随机数，然后使用这些随机数来构建采样样本。然而，在神经网络中，我们通常希望在反向传播时能够计算梯度，而随机数生成通常是不可导的，这会导致梯度无法传递到网络的参数。再参数化技巧的关键思想是将采样过程分为两步： 1. 从标准正态分布（均值为0，标准差为1的高斯分布）中采样一个随机数\(ε\)。 2. 使用这个随机数\(ε\)和给定的均值μ和标准差σ来计算采样样本： \[z = μ + σε\] 这样，我们通过在第一步中从标准正态分布中采样，将随机性与参数μ和σ分离开来。这使得整个采样过程变得可导，因为μ和σ是固定的参数，不依赖于随机数ε。这个技巧的好处是，在神经网络中，我们可以在反向传播时计算关于μ和σ的梯度，而不必担心随机数生成的不可导性。因此，再参数化技巧常用于训练深度生成模型，如变分自编码器（VAE）和生成对抗网络（GAN），以及其他需要从高斯分布中采样样本的应用中。这使得训练这些模型更加稳定和有效。
Python实现读取多个/批量txt文件合并成一个txt（示例为tcga数据处理）
企鹅在北极跳伞: 我按照步骤运行没有报错，但是也没有出结果，请问有大佬知道是怎么回事吗
Python exec使用：locals，golobals传参读取返回值
dxccccccccccc: [解决办法：将传参的代码分开执行] 其实就是将 exec code 中的 test Code 方法类都放全局作用域里了，后面的exec(run,...)其实都不用写，可以直接调用 a = test("a") 执行。如果把这些代码再封装到一个函数里，就会接着报错了，不知道有没有解决方案呢？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。