Transformer

BKXjilu

已于 2023-11-30 23:02:36 修改

阅读量797

点赞数 19

文章标签： transformer 深度学习人工智能

于 2023-11-30 23:00:39 首次发布

本文链接：https://blog.csdn.net/BKXjilu/article/details/134719413

版权

Encoder

Add&Norm:（LayerNorm）Transformer中的归一化(五)：Layer Norm的原理和实现 & 为什么Transformer要用LayerNorm - 知乎 (zhihu.com)

为什么output要进行shifted right操作？

Mask Muti-Head Attention---Mask:

学习资料：7-位置编码与多层堆叠1.mp4_哔哩哔哩_bilibili

Transformer代码及解析(Pytorch) - 知乎 (zhihu.com)

Encoder

如图所示:

Add&Norm:（LayerNorm）Transformer中的归一化(五)：Layer Norm的原理和实现 & 为什么Transformer要用LayerNorm - 知乎 (zhihu.com)

将多头注意力的输入和多头注意力的输出进行拼接，再进行LayerNorm。

拼接需要维度相同：

输入X(mxn m表示词数量，n表示词维度)，Q,K,V的权重为W_q,W_k,W_v，其维度均为（nxn）,

X与三个权重分别相乘得到Q,K,V,其维度均为（mxn）,通过Attention公式计算可以得到Attention输出为mxn，和输出的X的维度相同。

拼接操作就是多头注意力的输入和多头注意力的输出两个矩阵的对应元素相加，得到的结果维度仍然是mxn.

LayerNorm怎么做的？

batch表示样本的数量，在上图中每一列表示一个词向量，对每个词向量的所有特征进行归一化。(d_model表示词向量的维度)

原输入为 batchxd_model 输出为batchx1:


self.layer_norm1 = nn.LayerNorm(d_model)

Feed Forward:

对Transformer中FeedForward层的理解_transformer feed forward_江东的博客-CSDN博客

FeedForward代码：

class FeedForward(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(FeedForward, self).__init__()
        self.input_size = input_size
        self.l1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.l2 = nn.Linear(hidden_size, num_classes)
    
    def forward(self, x):
        out = self.l1(x)
        out = self.relu(out)
        out = self.l2(out)
        return out

公式：

$FFN(x)=relu(W_{1}x+b_{1})W_{2}+b2$

FeedForward的作用是什么？

FeedForward中增加了ReLU函数，它可以保留正数部分，对负数部分映射为0，将输入映射到了正数区间。这种做法使FFN并不是仅仅由线性模型y=wx+b构成，更符合实际问题的需求。比如进行房价预测时，可能X只包括收入和地段，y=wx+b只能研究收入和地段对房价的影响，但在实际情况还存在许多不确定因素，并不是简单的线性关系能描述的。

Decoder:

学习资料：机器学习-31-Transformer详解以及我的三个疑惑和解答_transformer不收敛-CSDN博客

output:

它的output 是什么？

如果该Transformer的任务是中英文转换，那么Encoder的输入是我是中国人，

Decoder的输入是分词进行的，一次输入一个词，逐词翻译。（假设当只有一个注意力头时）

输入s 预测出I的Attention值

输入s和I,预测出am的Attention值

输入s，I,am,预测出Chinese的Attention值

Decoder的输出是I am Chinese 终止符<f>

为什么output要进行shifted right操作？

shifted right就是右移的意思，I am Chinese右移，在最左端添加s,表示模型开始预测。

Decoder中的embedding,Add&Norm以及FeedForward和Encoder一样。

Mask Muti-Head Attention---Mask:

什么是masked的操作？

希望在翻译的时候，Decoder不能看到未来的翻译数据；即在翻译I时，不能知道 am和Chinese,要翻译出I,只能依靠起始符<s>

masked代码：

https://github.com/jadore801120/attention-is-all-you-need-pytorch github.com/jadore801120/attention-is-all-you-need-pytorch

def get_subsequent_mask(seq):
    ''' For masking out the subsequent info. '''
    sz_b, len_s = seq.size()
    # torch.triu(diagonal=1)保留矩阵上三角部分，其余部分(包括对角线)定义为0。
    subsequent_mask = (1 - torch.triu(
        torch.ones((1, len_s, len_s), device=seq.device), diagonal=1)).bool()
    return subsequent_mask