tensorflow中的seq2seq文档解读

最新推荐文章于 2022-12-12 22:07:04 发布

mstar1992

最新推荐文章于 2022-12-12 22:07:04 发布

阅读量1.2w

点赞数 4

分类专栏：深度学习 tensorflow

本文链接：https://blog.csdn.net/u013713117/article/details/54344473

版权

本文详细解读了TensorFlow中seq2seq模型的实现，包括基本的RNN Encoder-Decoder结构、采样Softmax和输出投影的运用，以及bucketing和padding的策略。在训练时，seq2seq模型可以通过feed_previous参数支持反馈解码和教师强制解码。采样Softmax用于处理大量输出词汇，而bucketing和padding则提高了处理不同长度序列的效率。

摘要由CSDN通过智能技术生成

sequence-to-sequence 模型的种类很多，每一种模型都可以使用不同的RNN单元，但是都必须以 encoder inputs 和decoder inputs作为参数。在tf.nn.seq2seq接口中有各种RNN encoder-decoder sequence-to-sequence模型，最基本的是这个样子：

outputs, states = basic_rnn_seq2seq(encoder_inputs, decoder_inputs, cell)

encoder_inputs 是一个tensors的列表，代表encoder的输入，例如上图的A,B,C。同样，decoder_inputs是代表decoder的tensors，例如上图的GO, W, X, Y, Z。

cell是类models.rnn.rnn_cell.RNNCell 的实例，决定了模型使用哪种cell，你可以用GRUCell 或者 LSTMCell。rnn_cell提供了wrappers建立多层cells，也可以 cell inputs 或者outputs添加dropout ，等等，具体可以参考RNN Tutorial 。

basic_rnn_seq2seq返回2个参数，outputs 和states。它们都是tensors列表，长度与decoder_inputs相同。outputs对应于每个时间步长中的解码器的输出，在上图中是W，X，Y，Z，EOS。states表示在每个时间步长的解码器的内部状态。

在sequence-to-sequence 模型的很多应用中，t时刻解码器的输出将反馈成为t+1时刻的输入。测试时，这就是通过解码构建序列的方法。另一方面，训练的时候，通常在每个时间步骤向解码器提供正确的输入，即使解码器之前犯了错误。 seq2seq.py中的函数使用feed_previous参数支持这两种模式。例如，以embedding RNN模型为例。

outputs, states = embedding_rnn_seq2seq(
    encoder_inputs, decoder_inputs, cell,
    num_encoder_symbols, num_decoder_symbols,
    output_projection=None, feed_previous=False)

在embedding_rnn_seq2seq模型中，所有的输入ÿ