u010787980-CSDN博客

原创 transformer encoder的输出如何变为decoder输入的Key和VALUE

另外需要注意的是，在Decoder中还有一种Self-Attention机制，它的Key、Value和Query都来自Decoder的当前状态（或者说是当前时间步及其之前的所有时间步的输出）。实际上，Encoder的输出被用作Decoder中的所谓“Encoder-Decoder Attention”机制的一部分，这里的Key和Value来自Encoder的输出，而Query来自Decoder的当前状态。

2024-02-16 00:41:37 790

原创 transformer Decoder每次都是进入一个单词做自注意力后，再与encoder输入的所有单词张量做交互注意力

具体来说，Decoder在生成输出序列时，会逐个单词地进行处理，并在每个时间步上执行两个注意力操作：自注意力（Self-Attention）和交互注意力（有时也被称为Encoder-Decoder Attention或Cross Attention）。是的，Transformer的Decoder在生成输出序列的每个单词时，会先对该单词进行自注意力（Self-Attention）处理，然后再与Encoder的输出进行交互注意力（Encoder-Decoder Attention）处理。

2024-02-16 00:06:06 409

原创 transformer feedForward实现代码

在Transformer模型中，Feed Forward Neural Network (FFNN) 是由两个线性层和一个非线性激活函数（通常是ReLU）组成的。输入首先通过一个线性层进行变换，然后应用ReLU激活函数，接着应用dropout（如果有的话），最后通过第二个线性层。请注意，在实际应用中，Transformer的Feed Forward层通常是在每个位置独立地应用于输入的，这意味着你需要将输入张量的形状从。这是因为标准的PyTorch线性层期望的输入是二维的，即。

2024-02-15 23:59:41 989

原创傅立叶变换各参数代表什么

如果n_fft=256，则一个小窗口可以得到256/2+1=129个频率组成的频率组，这些频率组的频率即为基准频率的倍数。比如说窗口大小设置为320，则表示这个小窗口采样320个点，因为16000个点所用时间为1秒，则小窗口采样320个点所用时间为0.02秒。维度相当于每个帧上面取了多少个频率，每个频率是多少，或者说这个帧上面的频率是多少，组成了这么一个维度的频率带，这个频率带叠加后形成了这个小窗的语音信息。比如说一段语音频率16000HZ，即16000个点/秒，则这里设置空口大小意味着，采样多少个点。

2024-02-09 17:35:43 718

原创对transform位置编码的直观解释

因为位置编码本身就只是一个信息，并不代表有前后的关系，加上随机扰动，让模型自动更新位置信息最终有前后关系也是一样的。相当于在已经固定的token embedding上面加上了随机扰动。假设token embedding后已经固定。因为位置编码的embedding也是随机生成。

2024-01-19 18:28:50 415

原创 lightgbm直方图分桶及加速理解

2、对于x1这个特征构建的直方图，从0这个直方图或者说这个桶开始遍历，将第0个桶分到左子树，用父节点直方图减去左节点直方图，算出右节点直方图，计算增益。以此类推，找到最大的增益点。1、对于每一个叶子节点，遍历所有特征，构建每个特征的直方图（这里是一个特征一个特征的构建，遍历这个叶子节点下的所有数据，将其放入对应的桶中：包括一阶梯度和二阶梯度，桶内样本的数量）。例如：对于x1这个特征，先构建一个桶，遍历这个叶子节点下的所有数据，按照这个特征构建的桶，对样本分桶，在桶内保存一阶梯度和二阶梯度，桶内样本的数量。

2024-01-02 09:18:45 442

原创李沐花书多头注意力机制代码详解

第一个x进来，这里是2批次，5头，合计（10）,查询的token数是4，每个变量的长度是20，所以查询变量数是10，token数是4，查询变量的向量长度是20。# 输出X的形状:(batch_size，查询或者“键－值”对的个数，num_heads，num_hiddens/num_heads)这个案例查询的单词数是4，即查询的句子的单词数是4，被查询的句子的单词数是6，5个头，即Q、K、V都是5，所以每个单词需要查询的Q*V是5次，

2023-10-26 21:06:20 110

u010787980的博客