transformer:self-attention,muti-head attention,positional encoding

最新推荐文章于 2023-06-17 14:48:55 发布

verse_armour

最新推荐文章于 2023-06-17 14:48:55 发布

阅读量302

点赞数

文章标签： transformer 深度学习 python

本文链接：https://blog.csdn.net/verse_armour/article/details/128086201

版权

文章目录

transformer和RNN、LSTM相比

RNN需要 $t_0$ 时刻的数据才能计算出 $t_1$ 时刻的数据，无法并行化计算，只具有短期记忆。
而transformer理论上的记忆长度是不受限制的，并且可以并行化计算。
transformer基于编码器-解码器来处理序列对，跟使用注意力的seq2seq不同，transformer纯基于注意力。

seq2seq

在这里插入图片描述

编码器-解码器架构

一个模型可以分成两块：

encoder，处理输入；
decoder，生成输出，有的时候也可以处理输入。

在这里插入图片描述

CNN

对于CNN来说，中间的特征提取层（中间表达式）可以抽象成一个编码器；softmax回归进行分类标号可以抽象成一个解码器。
RNN

RNN同理，最后一个时刻隐藏层的输出是编码器编码的结果，最后再通过全连接层进行解码。
编码器解码器API

from torch import nn

#@save
class Encoder(nn.Module):
    """编码器-解码器架构的基本编码器接口"""
    def __init__(self, **kwargs):
        super(Encoder, self).__init__(**kwargs)

    def forward(self, X, *args):
        raise NotImplementedError

#@save
class Decoder(nn.Module):
    """编码器-解码器架构的基本解码器接口"""
    def __init__(self, **kwargs):
        super(Decoder, self).__init__(**kwargs)

    def init_state(self, enc_outputs, *args):
        raise NotImplementedError

    def forward(self, X, state):
        raise NotImplementedError

#@save
class EncoderDecoder(nn.Module):
    """编码器-解码器架构的基类"""
    def __init__(self, encoder, decoder, **kwargs):
        super(EncoderDecoder, self).__init__(**kwargs)
        self.encoder = encoder
        self.decoder = decoder

    def forward(self, enc_X, dec_X, *args):
        enc_outputs = self.encoder(enc_X, *args)
        dec_state = self.decoder.init_state(enc_outputs, *args)
        return self.decoder(dec_X, dec_state)

在这里插入图片描述

What is Input?

sentence
voice
graph

给每个单词一个向量

One-hot Encoding
Word Embedding(包含了每个单词的语义信息)
一个句子就是一排长度不一的向量

在这里插入图片描述

What is Output?

在这里插入图片描述

N-N:each vector has a label
N-1:the whole sequence has a label

在这里插入图片描述

N-N’(seq2seq):model decides the number of labels itself
比如机器翻译、语音识别。输入和输出的数量不一样。

N-N:each vector has a label

为什么出现了self-attention机制？因为如果将输入sequence中每个足够大的向量（因为我们的输入需要统一长度）放进去训练会产生巨大的参数量，不利于我们的训练。因此我们采用一种自注意力机制来对输入sequence的每个向量进行self-attention处理，考虑输入sequence中每个向量和其他输入向量之间的关系。