5.3.使用注意力机制的seq2seq

最新推荐文章于 2024-08-09 11:06:54 发布

lsslcj

最新推荐文章于 2024-08-09 11:06:54 发布

阅读量1.8k

点赞数 54

分类专栏： ai相关文章标签：深度学习人工智能神经网络 seq2seq

本文链接：https://blog.csdn.net/shiki217_/article/details/140994478

版权

ai相关专栏收录该内容

48 篇文章 1 订阅

订阅专栏

使用注意力机制的seq2seq

动机：机器翻译中，每个生成的词可能相关于源句子中不同的词，也就是说，我们希望翻译后的句子中，每一个词元的位置对应源句子的位置。

加入注意力

编码器对每次词的输出作为key和value(一样的) ，解码器RNN对上一个词的输出是query，注意力的输出和下一个词的词嵌入合并进入RNN

在这里插入图片描述

使用注意力机制，使得与上一个输出相近的权重更大，提高准确性。

更详细的说，就是将上下文变量根据隐状态进行加权求和了：
$c_{t'}=\sum ^{T}_{t=1} \alpha(s_{t'-1},h_t)h_t$
其中，时间步 $t^{'} - 1$ 的解码器隐状态 $s_{t'-1}$ 是查询，编码器隐状态 $h_t$ 既是键，也是值，注意力权重 $\alpha$ 是使用之前所定义的加性注意力打分函数计算的。

Bahdanau 注意力

Bahdanau是这篇论文的作者。

import torch
from torch import nn
from d2l import torch as d2l


class Encoder(nn.Module):
    """编码器-解码器架构的基本编码器接口"""
    def __init__(self, **kwargs):
        super(Encoder, self).__init__(**kwargs)

    def forward(self, X, *args):
        raise NotImplementedError  #将状态传递下去  
        
#@save
class Decoder(nn.Module):
    """编码器-解码器架构的基本解码器接口"""
    def __init__(self, **kwargs):
        super(Decoder, self).__init__(**kwargs)

    def init_state(self, enc_outputs, *args):
        raise NotImplementedError #中间状态，转化过程

    def forward(self, X, state):
        raise NotImplementedError #X是解码器的输入，结合当前状态进行输出
#@save
class AttentionDecoder(d2l.Decoder):
    """带有注意力机制解码器的基本接口"""
    def __init__(self, **kwargs):
        super(AttentionDecoder, self).__init__(**kwargs)

    @property
    def attention_weights(self):
        raise NotImplementedError
        
        
class Seq2SeqAttentionDecoder(AttentionDecoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)
        self.attention = d2l.AdditiveAttention(
            num_hiddens, num_hiddens, num_hiddens, dropout)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(
            embed_size + num_hiddens, num_hiddens, num_layers,
            dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)

    def init_state(self, enc_outputs, enc_valid_lens, *args):
        # 维度更换后outputs的形状为(batch_size，num_steps，num_hiddens).
        # hidden_state的形状为(num_layers，batch_size，num_hiddens)
        outputs, hidden_state = enc_outputs
        return (outputs.permute(1, 0, 2), hidden_state, enc_valid_lens)

    def forward(self, X, state):
        # enc_outputs的形状为(batch_size,num_steps,num_hiddens).
        # hidden_state的形状为(num_layers,batch_size,
        # num_hiddens)
        enc_outputs, hidden_state, enc_valid_lens = state
        # 输出X的形状为(num_steps,batch_size,embed_size)
        X = self.embedding(X).permute(1, 0, 2)
        outputs, self._attention_weights = [], []
        for x in X:
            # query的形状为(batch_size,1,num_hiddens)
            # 上一个时刻的最后一层输出
            query = torch.unsqueeze(hidden_state[-1], dim=1)
            # context的形状为(batch_size,1,num_hiddens)
            # key和value一样长
            context = self.attention(
                query, enc_outputs, enc_outputs, enc_valid_lens)
            # 在特征维度上连结，x只有两个维度，则要填充一个维度
            x = torch.cat((context, torch.unsqueeze(x, dim=1)), dim=-1)
            # 将x变形为(1,batch_size,embed_size+num_hiddens)
            out, hidden_state = self.rnn(x.permute(1, 0, 2), hidden_state)
            outputs.append(out)
            self._attention_weights.append(self.attention.attention_weights)
        # 全连接层变换后，outputs的形状为
        # (num_steps,batch_size,vocab_size)
        outputs = self.dense(torch.cat(outputs, dim=0))
        return outputs.permute(1, 0, 2), [enc_outputs, hidden_state,
                                          enc_valid_lens]

    @property
    def attention_weights(self):
        return self._attention_weights 
      
      
encoder = d2l.Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=16,
                             num_layers=2)
encoder.eval()
decoder = Seq2SeqAttentionDecoder(vocab_size=10, embed_size=8, num_hiddens=16,
                                  num_layers=2)
decoder.eval()
X = torch.zeros((4, 7), dtype=torch.long)  # (batch_size,num_steps)
state = decoder.init_state(encoder(X), None)
output, state = decoder(X, state)
output.shape, len(state), state[0].shape, len(state[1]), state[1][0].shape


'''训练，类似的，基本没变'''
embed_size, num_hiddens, num_layers, dropout = 32, 32, 2, 0.1
batch_size, num_steps = 64, 10
lr, num_epochs, device = 0.005, 250, d2l.try_gpu()

train_iter, src_vocab, tgt_vocab = d2l.load_data_nmt(batch_size, num_steps)
encoder = d2l.Seq2SeqEncoder(
    len(src_vocab), embed_size, num_hiddens, num_layers, dropout)
decoder = Seq2SeqAttentionDecoder(
    len(tgt_vocab), embed_size, num_hiddens, num_layers, dropout)
net = d2l.EncoderDecoder(encoder, decoder)
d2l.train_seq2seq(net, train_iter, lr, num_epochs, tgt_vocab, device)


'''计算bleu分数'''
engs = ['go .', "i lost .", 'he\'s calm .', 'i\'m home .']
fras = ['va !', 'j\'ai perdu .', 'il est calme .', 'je suis chez moi .']
for eng, fra in zip(engs, fras):
    translation, dec_attention_weight_seq = d2l.predict_seq2seq(
        net, eng, src_vocab, tgt_vocab, num_steps, device, True)
    print(f'{eng} => {translation}, ',
          f'bleu {d2l.bleu(translation, fra, k=2):.3f}')
    
    
attention_weights = torch.cat([step[0][0][0] for step in dec_attention_weight_seq], 0).reshape((
    1, 1, -1, num_steps))

# 加上一个包含序列结束词元
d2l.show_heatmaps(
    attention_weights[:, :, :, :len(engs[-1].split()) + 1].cpu(),
    xlabel='Key positions', ylabel='Query positions')

d2l.plt.show()

lsslcj

关注

54
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
5.3.使用注意力机制的seq2seq

动机：机器翻译中，每个生成的词可能相关于源句子中不同的词，也就是说，我们希望翻译后的句子中，每一个词元的位置对应源句子的位置。编码器对每次词的输出作为key和value(一样的) ，解码器RNN对上一个词的输出是query，注意力的输出和下一个词的词嵌入合并进入RNN 使用注意力机制，使得与上一个输出相近的权重更大，提高准确性。ct′t1∑Tαst′−1htht 其中，时间步t′−1的解码器隐状态st′−1。
复制链接

扫一扫

专栏目录