Seq2Seq详解及实现

最新推荐文章于 2025-04-13 21:41:19 发布

大雄没有叮当猫

最新推荐文章于 2025-04-13 21:41:19 发布

阅读量6.5k

点赞数 6

分类专栏：自然语言处理机器学习深度学习文章标签： seq2seq

原文链接：https://blog.keras.io/a-ten-minute-introduction-to-sequence-to-sequence-learning-in-keras.html

版权

深度学习同时被 3 个专栏收录

54 篇文章

订阅专栏

机器学习

49 篇文章

订阅专栏

自然语言处理

30 篇文章

订阅专栏

1.Seq2Seq是什么？

Seq2Seq学习是训练一个模型，将来自一个领域的序列(例如英语语句)转换为另一个领域的序列(例如法语)。

"the cat sat on the mat" -> [Seq2Seq model] -> "le chat etait assis sur le tapis"

Seq2Seq模型可以用于机器翻译或者自由问答(在给定自然语言问题的情况下生成自然语言答案)。通常，它可以在任何需要生成文本的情况下使用。

我们可以使用多种方法来处理Seq2Seq任务，比如循环神经网络(RNN)或者(卷积神经网络)。在这里，我们将重点介绍RNN。

1.1 输入和输出序列的长度相同

当输入和输出序列具有相同的长度时，您可以仅使用LSTM或者GRU网络或者它们的堆叠网络来实现此类模型。例如训练一个教RNN学习加法的模型。

在这里插入图片描述

但是，在通常情况下，我们的输入序列和输出序列的长度并不一样。

1.2 输入序列和输出序列长度不同

一般情况下，输入序列和输出序列具有不同的长度(例如，机器翻译)，并且需要整个输入序列才能开始预测目标。这需要更高级的设置，也就是人们在没有其他上下文情况下提到"序列到序列模型"时通常所指的东西。运行方式如下：

RNN层(或者RNN的堆叠)作为编码器(encoder)：它处理输入序列并返回其自己的内部状态(internal state)。请注意，我们丢弃了编码器RNN的输出，仅使用其状态(state)。这个状态(state)将作为"上下文"或者"条件"来服务于下一步的decoder。
另一个RNN层(或者其堆叠)作为解码器(decoder):在给定目标序列的前一个字符的情况下，对其进行训练以预测目标序列的下一个字符。具体而言，它被训练为将目标序列变成相同的序列，但偏移一个时间步，在这种情况下，称为"teacher forcing"。重要的是，编码器使用来自编码器的状态向量作为初始状态，这就是解码器如何获取有关应该生成的信息的方式。在给定输入序列[…t]的情况，编码器会学习生成目标序列[t+1…]。

上述是训练模型，在推理模式中，即当我们想解码未知的输入序列时，我们会经历一个略有不同的过程:

1）将输入序列编码为状态向量
2）从大小为1的目标序列开始(仅是序列开始字符)
3）将状态向量和1个字符的目标序列提供给解码器，以生成下一个字符的预测。
4）使用这些预测来采样下一个字符(argmax)。
5）将采样的字符追加到目标序列
6）重复上述过程直到生成序列结束字符或达到字符数限制。

在训练的时候也可以采用此种方式，即通过将解码器的预测重新注入到解码器中。

2.keras实现Seq2Seq

实现英语到法语的翻译任务
编码器和解码器均使用单层LSTM。
基于字符级别的序列到序列模型

大概过程如下：

1）把输入和输出序列转为3维numpy张量,encoder_input_data, decoder_input_data, decoder_target_data:
2）给定encoder_input_data和decoder_input_data，训练一个基础的基于LSTM的Seq2Seq模型来预测decoder_target_data
1. 解码测试序列检查模型是否有效

因为训练过程和推理过程(解码序列)完全不同，尽管它们都使用相同的内部层，我们对两者使用不同的模型。

2.1 基本参数设置

from __future__ import print_function
from tensorflow.keras.models import  Model
from tensorflow.keras.layers import Input,LSTM,Dense
import tensorflow.keras as keras
import numpy as np

#参数设置
batch_size=64
epochs=100
latent_dim=256
num_samples=10000 #样本数量
data_path="/content/drive/My Drive/data/fra-en.txt"

2.2 训练数据准备

#训练数据准备
input_texts=[]
target_texts=[]
input_characters=set()
target_characters=set()
with open(data_path,"r",encoding="utf-8") as f:
  lines=f.read().split("\n")
for line in lines[:min(num_samples,len(lines)-1)]:
  input_text,target_text=line.split("\t")
  #对于目标序列使用"\t"键作为序列的起始字符
  #使用""\n"作为结束字符
  target_text="\t"+target_text+"\n"
  input_texts.append(input_text)
  target_texts.append(target_text)
  for char in input_text:
    if char not in input_characters:
      input_characters.add(char)
  for char in target_text:
    if char not in target_characters:
      target_characters.add(char)


input_characters=sorted(list(input_characters))
target_characters=sorted(list(target_characters))

num_encoder_tokens=len(input_characters)#所有输入序列去重字符数,区分大小写
num_decoder_tokens=len(target_characters)#所有输出序列去重字符数

max_encoder_seq_length=max([len(txt) for txt in input_texts])
max_decoder_deq_length=max([len(txt) for txt in target_texts])

print("样本数量：",len(input_texts))
print("输入序列字符数:",num_encoder_tokens)
print("输出序列字符数:",num_decoder_tokens)
print("输入序列最长序列长度:",max_encoder_seq_length)
print("输出序列最长序列长度:",max_decoder_deq_length)

input_token_index=dict([(char,i) for i,char in enumerate(input_characters)])
target_token_index=dict([char,i] for i,char in enumerate(target_characters))

encoder_input_data=np.zeros((len(input_texts),max_encoder_seq_length,num_encoder_tokens),dtype="float32")
decoder_input_data=np.zeros((len(input_texts),max_decoder_deq_length,num_decoder_tokens),dtype="float32")
decoder_target_data=np.zeros((len(input_texts),max_decoder_deq_length,num_decoder_tokens),dtype="float32")

for i,(input_text,target_text) in enumerate(zip(input_texts,target_texts)):
  for t,char in enumerate(input_text):
    encoder_input_data[i,t,input_token_index[char]]=1
  encoder_input_data[i,t+1:,input_token_index[" "]]=1  #长度不够的序列使用"  "进行padding

  for t,char in enumerate(target_text):
    decoder_input_data[i,t,target_token_index[char]]=1
    if t>0:
      #目标数据decoder_target_data不包括起始字符，并向前一步(teacher forcing)
      decoder_target_data[i,t-1,target_token_index[char]]=1 
  decoder_input_data[i,t+1:,target_token_index[" "]]=1
  decoder_target_data[i,t:,target_token_index[" "]]=1

2.3 模型网络结构搭建

#模型训练网络结构搭建

#encoder端
encoder_inputs=Input(shape=(None,num_encoder_tokens))
encoder=LSTM(latent_dim,return_state=True) #return_state参数控制是否返回cell state
encoder_outputs,state_h,state_c=encoder(encoder_inputs)
encoder_states=[state_h,state_c]

#decoder
decoder_inputs=Input(shape=(None,num_decoder_tokens))
#返回所有的output sequences和internal states。在训练过程中不使用return states,但在推理中使用
decoder_lstm=LSTM(latent_dim,return_sequences=True,return_state=True)#return_sequences控制是否返回所有时间步的hidden state
decoder_outputs,_,_=decoder_lstm(decoder_inputs,initial_state=encoder_states) #使用encoder的输出状态作为deocder的初始状态
decoder_dense=Dense(num_decoder_tokens,activation="softmax")
decoder_outputs=decoder_dense(decoder_outputs)

model=Model([encoder_inputs,decoder_inputs],decoder_outputs)

model.compile(optimizer="rmsprop",loss="categorical_crossentropy",metrics=["accuracy"])
model.fit([encoder_input_data,decoder_input_data],decoder_target_data,batch_size=batch_size,epochs=epochs,validation_split=0.2)

2.4 模型推理

编码输入和获取初始的decoder state
使用初始state和序列的开始字符作为目标来运行decoder的一步，输出将作为下一个目标字符
使用现在的目标字符和状态来重复以上过程

encoder_model=Model(encoder_inputs,encoder_states) #推理模式的encoder端

#推理模式decoder端
decoder_state_input_h=Input(shape=(latent_dim,)) #hidden state
decoder_state_input_c=Input(shape=(latent_dim,)) #cell state 
decoder_states_inputs=[decoder_state_input_h,decoder_state_input_c]
decoder_outputs,state_h,state_c=decoder_lstm(decoder_inputs,initial_state=decoder_states_inputs) #decoder_lstm在训练阶段已经训练好了，推理阶段直接拿来用
decoder_states=[state_h,state_c]
decoder_outputs=decoder_dense(decoder_outputs)#decoder_dense在训练阶段已经训练好了，推理阶段直接拿来用
decoder_model=Model([decoder_inputs]+decoder_states_inputs,[decoder_outputs]+decoder_states)

reverse_input_char_index=dict((i,char) for char ,i in input_token_index.items())
reverse_target_char_index=dict((i,char) for char,i in target_token_index.items())

#生成翻译序列

def decode_sequence(input_seq):
  #编码输入作为state向量
  states_value=encoder_model.predict(input_seq)

  target_seq=np.zeros((1,1,num_decoder_tokens)) #长度为1的目标序列
  target_seq[0,0,target_token_index["\t"]]=1

  stop_condition=False
  decoded_sentence=""

  while not stop_condition:
    output_tokens,h,c=decoder_model.predict([target_seq]+states_value)
    sampled_token_index=np.argmax(output_tokens[0,-1,:])
    sampled_char=reverse_target_char_index[sampled_token_index]
    decoded_sentence+=sampled_char

    if(sampled_char=="\n" or len(decoded_sentence)>max_decoder_deq_length):
      stop_condition=True
    target_seq=np.zeros((1,1,num_decoder_tokens))
    target_seq[0,0,sampled_token_index]=1
    states_value=[h,c]
  return decoded_sentence
  
  
for seq_index in range(100):
  input_seq=encoder_input_data[seq_index:seq_index+1]
  decoded_sentence=decode_sequence(input_seq)
  print("-")
  print("Input sentence:",input_texts[seq_index])
  print("Decoded sentence:",decoded_sentence)

# 2.5 使用GRU代替LSTM

#encoder
encoder_inputs=Input(shape=(None,num_encoder_tokens))
encoder=keras.layers.GRU(latent_dim,return_state=True)
encoder_outputs,state_h=encoder(encoder_inputs)

#decoder
decoder_inputs=Input(shape=(None,num_decoder_tokens))
decoder_gru=keras.layers.GRU(latent_dim,return_sequences=True)
decoder_outputs=decoder_gru(decoder_inputs,initial_state=state_h)
decoder_dense=Dense(num_decoder_tokens,activation="softmax")
decoder_outputs=decoder_dense(decoder_outputs)
gru_model=Model([encoder_inputs,decoder_inputs],decoder_outputs)

gru_model.compile(optimizer="rmsprop",loss="categorical_crossentropy",metrics=["accuracy"])
gru_model.fit([encoder_input_data,decoder_input_data],decoder_target_data,batch_size=batch_size,epochs=epochs,validation_split=0.2)

代码：https://github.com/chongzicbo/nlp-ml-dl-notes/blob/master/code/seq2seq/Seq2Seq%E8%AF%A6%E8%A7%A3%E5%8F%8A%E5%AE%9E%E7%8E%B0.ipynb