Seq2seq进阶,双向GRU

本文详细介绍了Seq2Seq模型中的Attention机制,强调了如何通过AttentionEncoder避免信息过度压缩。文章首先概述了基本的seq2seq模型,然后重点讲解了Attention层的工作原理,包括如何计算注意力权重和能量,以及如何通过softmax使其归一化。同时,展示了Encoder和Decoder的实现细节,特别是如何结合前向和后向RNN的隐藏状态生成解码器的初始隐藏状态。
摘要由CSDN通过智能技术生成

一般编码器中得到的向量包含所有的上下文信息, 是高度压缩的信息, 怎么样来避免这种压缩呢?

在这里插入图片描述

  • 这是原来的seq2seq, 当然有些小的改进在此不做介绍了。

主要使用attention

attention 向量a, 长度是源向量的长度, ai在0~1之间, 总和为1, 可以得到加权后的向量w
在这里插入图片描述
在解码的每个时间步计算一个加权向量, 把它作为解码器和线性层的输入来进行预测

Encoder

使用双向GRU构建编码器

在这里插入图片描述

  • 此时output的大小为src_len, batch_size, hid_dim*num_directions , 其中第三轴的hidden的元素是两个分开的, 一个是前向的一个是后向的, 如下图
    在这里插入图片描述
    可以把所有的hidden前向和后向串联表示, 如下图:
    在这里插入图片描述

  • 此时hidden的大小是n_layers*num directions, batch_size, hid_dim
    其中[-2, :, :]给出顶层RNN在最后一个时间步长后的隐藏状态(即在它看到句子中的最后一个单词后),[-1, :, :]给出顶层RNN在最后一个时间步长后的隐藏状态(即在它看到句子中的第一个单词后)。

  • 由于解码器不是双向的,它只需要一个上下文向量z来作为它的初始隐藏状态s0,而我们目前有两个,一个向前的,一个向后的( z → = h → T \overrightarrow z=\overrightarrow h_T z =h T z ← = h ← T \overleftarrow z=\overleftarrow h_T z =h T,分别)。我们通过将两个上下文向量连接在一起,通过一个线性层g,并应用tanh激活函数来解决这个问题。公式如下:
    在这里插入图片描述

class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, enc_hid_dim, dec_hid_dim, dropout):
        super().__init__()
        
        self.embedding = nn.Embedding(input_dim, emb_dim)
        
        self.rnn = nn.GRU(emb_dim, enc_hid_dim, bidirectional = True)
        
        self.fc = nn.Linear(enc_hid_dim * 2, dec_hid_dim)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, src):
        
        #src = [src len, batch size]
        
        embedded = self.dropout(self.embedding(src))
        
        #embedded = [src len, batch size, emb dim]
        
        outputs, hidden = self.rnn(embedded)
                
        #outputs = [src len, batch size, hid dim * num directions]
        #hidden = [n layers * num directions, batch size, hid dim]
        
        #hidden is stacked [forward_1, backward_1, forward_2, backward_2, ...]
        #outputs are always from the last layer
        
        #hidden [-2, :, : ] is the last of the forwards RNN 
        #hidden [-1, :, : ] is the last of the backwards RNN
        
        #initial decoder hidden is final hidden state of the forwards and backwards 
        #  encoder RNNs fed through a linear layer
        hidden = torch.tanh(self.fc(
        torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim = 1)))
        
        #outputs = [src len, batch size, enc hid dim * 2]
        #hidden = [batch size, dec hid dim]
        
        return outputs, hidden
Attention

注意力层将解码器先前隐藏状态 st−1 以及来自编码器所有堆叠的前向和后向隐藏状态 H
首先,我们计算之前解码器隐藏状态和编码器隐藏状态之间的energy。由于我们的编码器隐藏状态是一个T序列的张量,而我们之前的解码器隐藏状态是一个单一的张量,我们做的第一件事就是**重复(repeat)**之前的解码器隐藏状态T次。然后我们计算它们之间的能量Et,方法是将它们串联起来,并通过一个线性层(attn)和一个tanh激活函数
在这里插入图片描述
这可以被认为是计算每个编码器隐藏状态"匹配"previous的解码器隐藏状态的程度。目前,我们有一个[dec hid dim, src len]张量,用于批处理中的每个例子。我们希望该批中的每个例子都是[src len],因为注意力应该覆盖在源句的长度上。这是通过将 energy乘以[1, dec hid dim]张量v来实现的。
在这里插入图片描述
我们可以认为v是所有编码器隐藏状态的能量加权和的权重。这些权重告诉我们,我们应该对源序列中的每个符号关注多少。v的参数是随机初始化的,但通过反向传播与模型的其他部分一起学习。请注意v是如何不依赖于时间的,并且在解码的每个时间步中使用相同的v。我们将v实现为一个没有偏置的线性层。

最后,我们确保注意力矢量符合所有元素都在0和1之间的约束条件,并通过softmax层使矢量之和为1。
在这里插入图片描述

从图形上看,这看起来像下面的东西。这是用来计算第一个注意力向量的,其中 s t − 1 = s 0 = z s_{t-1}=s_0=z st1=s0=z。绿色/茶色块代表前向和后向RNN的隐藏状态,而注意力的计算都是在粉色块中完成的。

在这里插入图片描述

class Attention(nn.Module):
    def __init__(self, enc_hid_dim, dec_hid_dim):
        super().__init__()
        
        self.attn = nn.Linear((enc_hid_dim * 2) + dec_hid_dim, dec_hid_dim)
        self.v = nn.Linear(dec_hid_dim, 1, bias = False)
        
    def forward(self, hidden, encoder_outputs):
        
        #hidden = [batch size, dec hid dim]
        #encoder_outputs = [src len, batch size, enc hid dim * 2]
        
        batch_size = encoder_outputs.shape[1]
        src_len = encoder_outputs.shape[0]
        
        #repeat decoder hidden state src_len times
        hidden = hidden.unsqueeze(1).repeat(1, src_len, 1)
        
        encoder_outputs = encoder_outputs.permute(1, 0, 2)
        
        #hidden = [batch size, src len, dec hid dim]
        #encoder_outputs = [batch size, src len, enc hid dim * 2]
        
        energy = torch.tanh(self.attn(torch.cat((hidden, encoder_outputs), dim = 2))) 
        
        #energy = [batch size, src len, dec hid dim]

        attention = self.v(energy).squeeze(2)
        
        #attention= [batch size, src len]
        
        return F.softmax(attention, dim=1)
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

live_for_myself

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值