![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer
文章平均质量分 85
Transformer
PuJiang-
憨人。 --2021.8.11
展开
-
Attention的汇总与辨析_Additive、Multiplication、Scaled dot-product、Self Attention、Multi-head Self-Attention
一、Seq2Seq1.1Seq2Seq(Encoder-Decoder)是什么简介:使用Encoder将input编码为一个固定长度的context向量,使用Decoder将context解码为output。input、output长度不一定相同。奠基论文:Sequence to Sequence Learning with Neural Networks...原创 2022-04-07 17:08:52 · 2308 阅读 · 0 评论 -
Scaled dot-product Attention、Self-Attention辨析
一、Scaled dot-product Attention有两个序列X、YX、YX、Y:序列XXX提供查询信息QQQ,序列YYY提供键、值信息K、VK、VK、V。Q∈Rx_len×in_dimQ\in R^{{x\_len}\times {in\_dim}}{}Q∈Rx_len×in_dimK∈Ry_len×in_dimK\in R^{{y\_len}\times {in\_dim}}{}K∈Ry_len×in_dimV∈Ry_len×out_dimV\in R^{{y\_len}\times {out原创 2021-08-22 15:50:50 · 7007 阅读 · 1 评论 -
Self-Attention原理、Multi-head Self-Attention原理及Pytorch实现
一、Self-Attention原理下图虚线框内为Self-Attention模块基本功能,输入a1,a2,a3,a4a_1,a_2,a_3,a_4a1,a2,a3,a4,输出b1,b2,b3,b4b_1,b_2,b_3,b_4b1,b2,b3,b4。输入序列与输出序列长度相同,内部实际上做的是加权求和的运算。1、计算a1a_1a1与所有向量(包括自己)的attention-score使用q1q_1q1与k1,k2,k3,k4k_1,k_2,k_3,k_4k1,k2,k3,原创 2021-08-19 17:43:12 · 5544 阅读 · 10 评论 -
BatchNorm、LayerNorm详细过程及示例_Pytorch
一、BatchNorm1、对batch中的每个维度进行归一化y=x−E[x]Var[x]y=\frac{x-E[x]}{\sqrt{Var[x]}}y=Var[x]x−E[x]其中:E[x]=1n∑i=1nxi,Var[x]=1n∑i=1n(xi−E[x])2E[x]=\frac{1}{n}\sum_{i=1}^nx_i,Var[x]=\frac{1}{n}\sum_{i=1}^n(x_i-E[x])^2E[x]=n1∑i=1nxi,Var[x]=n1∑i=1n(xi−E[x])22原创 2021-08-19 12:31:25 · 4205 阅读 · 4 评论