tf.nn.rnn_cell.DropoutWrapper用法细节案例1

最新推荐文章于 2023-02-23 00:29:59 发布

monk1992

最新推荐文章于 2023-02-23 00:29:59 发布

阅读量2.3k

点赞数

分类专栏： tensorflow

tensorflow 专栏收录该内容

77 篇文章 2 订阅

订阅专栏

前言：前面介绍了LSTM，下面介绍LSTM的几种变种

双向RNN

Bidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关，并且还与之后的序列有关，例如：预测一个语句中缺失的词语那么需要根据上下文进行预测；Bidirectional RNN是一个相对简单的RNNs，由两个RNNs上下叠加在一起组成。输出由这两个RNNs的隐藏层的状态决定。

如下图：

网络构建的代码如下：

# 开始网络构建
    # 1. 输入的数据格式转换
    # X格式：[batch_size, time_steps, input_size]
    X = tf.reshape(_X, shape=[-1, timestep_size, input_size])
<span class="hljs-comment"># 单层LSTM RNN</span>
<span class="hljs-comment"># 2. 定义Cell</span>
lstm_cell_fw = tf.nn.rnn_cell.LSTMCell(num_units=hidden_size, reuse=tf.get_variable_scope().reuse)
gru_cell_bw = tf.nn.rnn_cell.GRUCell(num_units=hidden_size, reuse=tf.get_variable_scope().reuse)

<span class="hljs-comment"># 3. 单层的RNN网络应用</span>
init_state_fw = lstm_cell_fw.zero_state(batch_size, dtype=tf.float32)
init_state_bw = gru_cell_bw.zero_state(batch_size, dtype=tf.float32)

<span class="hljs-comment"># 3. 动态构建双向的RNN网络</span>
<span class="hljs-string">"""
bidirectional_dynamic_rnn(
    cell_fw: 前向的rnn cell
    , cell_bw：反向的rnn cell
    , inputs：输入的序列
    , sequence_length=None
    , initial_state_fw=None：前向rnn_cell的初始状态
    , initial_state_bw=None：反向rnn_cell的初始状态
    , dtype=None
    , parallel_iterations=None
    , swap_memory=False, time_major=False, scope=None)
API返回值：(outputs, output_states) =&gt; outputs存储网络的输出信息，output_states存储网络的细胞状态信息
outputs: 是一个二元组, (output_fw, output_bw)构成，output_fw对应前向的rnn_cell的执行结果，结构为：[batch_size, time_steps, output_size];output_bw对应反向的rnn_cell的执行结果，结果和output_bw一样
output_states：是一个二元组，(output_state_fw, output_state_bw) 构成，output_state_fw和output_state_bw是dynamic_rnn API输出的状态值信息
"""</span>
outputs, states = tf.nn.bidirectional_dynamic_rnn(
    cell_fw=lstm_cell_fw, cell_bw=gru_cell_bw, inputs=X,
    initial_state_fw=init_state_fw, initial_state_bw=init_state_bw)
output_fw = outputs[<span class="hljs-number">0</span>][:, <span class="hljs-number">-1</span>, :]
output_bw = outputs[<span class="hljs-number">1</span>][:, <span class="hljs-number">-1</span>, :]
output = tf.concat([output_fw, output_bw], <span class="hljs-number">1</span>)

深度RNN

Deep Bidirectional RNN(深度双向RNN)类似Bidirectional RNN，区别在于每个每一步的输入有多层网络，这样的话该网络便具有更加强大的表达能力和学习能力，但是复杂性也提高了，同时需要训练更多的数据。

深度RNN网络构建的代码如下：

#多层
    def lstm_call():
        cell = tf.nn.rnn_cell.LSTMCell(num_units=hidden_size,reuse=tf.get_variable_scope().reuse)
        return tf.nn.rnn_cell.DropoutWrapper(cell,output_keep_prob=keep_prob)
    mlstm_cell = tf.nn.rnn_cell.MultiRNNCell(cells=[lstm_call() for i in range(layer_num)])
    inint_state = mlstm_cell.zero_state(batch_size,tf.float32)
    output,state = tf.nn.dynamic_rnn(mlstm_cell,inputs=X,initial_state=inint_state)
    output = output[:,-1,:]

几种变种

增加“peephole connections”层
让门层也接受细胞状态的输入
通过耦合忘记门和更新输入门(第一个和第二个门)；也就是不再单独的考虑忘记什么、增加什么信息，而是一起进行考虑。
Gated Recurrent Unit(GRU)，2014年提出
将忘记门和输入门合并成为一个单一的更新门
同时合并了数据单元状态和隐藏状态
结构比LSTM的结构更加简单

可以参考论文：http://arxiv.org/pdf/1402.1128v1.pdf

monk1992

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
tf.nn.rnn_cell.DropoutWrapper用法细节案例1

前言：前面介绍了LSTM，下面介绍LSTM的几种变种双向RNNBidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关，并且还与之后的序列有关，例如：预测一个语句中缺失的词语那么需要根据上下文进行预测；Bidirectional RNN是一个相对简单的RNNs，由两个RNNs上下叠加在一起组成。输出由这两个RN...
复制链接

扫一扫

专栏目录