自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 transformer encoder的输出如何变为decoder输入的Key和VALUE

另外需要注意的是,在Decoder中还有一种Self-Attention机制,它的Key、Value和Query都来自Decoder的当前状态(或者说是当前时间步及其之前的所有时间步的输出)。实际上,Encoder的输出被用作Decoder中的所谓“Encoder-Decoder Attention”机制的一部分,这里的Key和Value来自Encoder的输出,而Query来自Decoder的当前状态。

2024-02-16 00:41:37 790

原创 transformer Decoder每次都是进入一个单词做自注意力后,再与encoder输入的所有单词张量做交互注意力

具体来说,Decoder在生成输出序列时,会逐个单词地进行处理,并在每个时间步上执行两个注意力操作:自注意力(Self-Attention)和交互注意力(有时也被称为Encoder-Decoder Attention或Cross Attention)。是的,Transformer的Decoder在生成输出序列的每个单词时,会先对该单词进行自注意力(Self-Attention)处理,然后再与Encoder的输出进行交互注意力(Encoder-Decoder Attention)处理。

2024-02-16 00:06:06 409

原创 transformer feedForward实现代码

在Transformer模型中,Feed Forward Neural Network (FFNN) 是由两个线性层和一个非线性激活函数(通常是ReLU)组成的。输入首先通过一个线性层进行变换,然后应用ReLU激活函数,接着应用dropout(如果有的话),最后通过第二个线性层。请注意,在实际应用中,Transformer的Feed Forward层通常是在每个位置独立地应用于输入的,这意味着你需要将输入张量的形状从。这是因为标准的PyTorch线性层期望的输入是二维的,即。

2024-02-15 23:59:41 989

原创 傅立叶变换各参数代表什么

如果n_fft=256,则一个小窗口可以得到256/2+1=129个频率组成的频率组,这些频率组的频率即为基准频率的倍数。比如说窗口大小设置为320,则表示这个小窗口采样320个点,因为16000个点所用时间为1秒,则小窗口采样320个点所用时间为0.02秒。维度相当于每个帧上面取了多少个频率,每个频率是多少,或者说这个帧上面的频率是多少,组成了这么一个维度的频率带,这个频率带叠加后形成了这个小窗的语音信息。比如说一段语音频率16000HZ,即16000个点/秒,则这里设置空口大小意味着,采样多少个点。

2024-02-09 17:35:43 718

原创 对transform位置编码的直观解释

因为位置编码本身就只是一个信息,并不代表有前后的关系,加上随机扰动,让模型自动更新位置信息最终有前后关系也是一样的。相当于在已经固定的token embedding上面加上了随机扰动。假设token embedding后已经固定。因为位置编码的embedding也是随机生成。

2024-01-19 18:28:50 415

原创 lightgbm直方图分桶及加速理解

2、对于x1这个特征构建的直方图,从0这个直方图或者说这个桶开始遍历,将第0个桶分到左子树,用父节点直方图减去左节点直方图,算出右节点直方图,计算增益。以此类推,找到最大的增益点。1、对于每一个叶子节点,遍历所有特征,构建每个特征的直方图(这里是一个特征一个特征的构建,遍历这个叶子节点下的所有数据,将其放入对应的桶中:包括一阶梯度和二阶梯度,桶内样本的数量)。例如:对于x1这个特征,先构建一个桶,遍历这个叶子节点下的所有数据,按照这个特征构建的桶,对样本分桶,在桶内保存一阶梯度和二阶梯度,桶内样本的数量。

2024-01-02 09:18:45 442

原创 李沐花书多头注意力机制代码详解

第一个x进来,这里是2批次,5头,合计(10),查询的token数是4,每个变量的长度是20,所以查询变量数是10,token数是4,查询变量的向量长度是20。# 输出X的形状:(batch_size,查询或者“键-值”对的个数,num_heads,num_hiddens/num_heads)这个案例查询的单词数是4,即查询的句子的单词数是4,被查询的句子的单词数是6,5个头,即Q、K、V都是5,所以每个单词需要查询的Q*V是5次,

2023-10-26 21:06:20 110

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除