学会区分 RNN 的 output 和 state

taoqick

已于 2022-05-28 23:14:59 修改

阅读量2.5k

点赞数 11

分类专栏： tensorflow 机器学习算法文章标签： rnn lstm tensorflow

于 2018-03-07 19:02:05 首次发布

本文链接：https://blog.csdn.net/taoqick/article/details/79475350

版权

算法同时被 3 个专栏收录

474 篇文章 6 订阅

订阅专栏

机器学习

73 篇文章 0 订阅

订阅专栏

tensorflow

19 篇文章 0 订阅

订阅专栏

若干年后，看到了pytorch对RNN的抽象，非常优雅，见这个正余弦预测code的注释：

"""
View more, visit my tutorial page: https://mofanpy.com/tutorials/
My Youtube Channel: https://www.youtube.com/user/MorvanZhou

Dependencies:
torch: 0.4
matplotlib
numpy
"""
import torch
from torch import nn
import numpy as np
import matplotlib.pyplot as plt

# torch.manual_seed(1)    # reproducible

# Hyper Parameters
TIME_STEP = 10      # rnn time step
INPUT_SIZE = 1      # rnn input size
LR = 0.02           # learning rate

# show data
steps = np.linspace(0, np.pi*2, 100, dtype=np.float32)  # float32 for converting torch FloatTensor
x_np = np.sin(steps)
y_np = np.cos(steps)
plt.plot(steps, y_np, 'r-', label='target (cos)')
plt.plot(steps, x_np, 'b-', label='input (sin)')
plt.legend(loc='best')
plt.show()


class RNN(nn.Module):
    def __init__(self):
        super(RNN, self).__init__()

        self.rnn = nn.RNN(
            input_size=INPUT_SIZE,
            hidden_size=32,     # rnn hidden unit
            num_layers=1,       # number of rnn layer
            batch_first=True,   # input & output will has batch size as 1s dimension. e.g. (batch, time_step, input_size)
        )
        self.out = nn.Linear(32, 1)

    def forward(self, x, h_state):

        # x (batch, time_step, input_size)
        # h_state (n_layers, batch, hidden_size)
        # r_out (batch, time_step, hidden_size)
        r_out, h_state = self.rnn(x, h_state)
        # self.rnn实际上本身就是有n_layers*time_step个网状RNN单元：n_layers是向上堆叠的，time_step是时间维度堆叠的，也就是先后顺序
        # batch是batch_size，把训练数据分成若干批，每批有多大
        # input_size是某个timestamp输入有多少维：这个例子是正余弦预测例子是1维；如果把一行像素当成输入，维度就是这行像素的个数
        # hidden_size就是RNN内部会当成多少维。所有神经网络都是输入维度input_size->内部维度->output_size

        #下面这一大堆实际上只是先把hidden_size维弄成1维，因为最终预测是1维的，来了3种方法：

        # outs = []    # save all predictions
        # for time_step in range(r_out.size(1)):    # 每个time_step分别过FeedForward
        #     outs.append(self.out(r_out[:, time_step, :]))
        # return torch.stack(outs, dim=1), h_state

        # 第二种方法，先把r_out (batch, time_step, hidden_size)弄成(-1, hidden_size)的二维tensor，过FeedForward，再reshape回来
        # instead, for simplicity, you can replace above codes by follows
        r_out = r_out.view(-1, 32)
        print('r_out.view(-1, 32) shape={}'.format(r_out.shape))
        outs = self.out(r_out)
        outs = outs.view(-1, TIME_STEP, 1)
        return outs, h_state

        # 第三种方法，全连接在Pytorch里只关心in_features有多少维->out_features有多少维就行了
        # 如果print RNN这个instance就会发现，RNN网络结构实际上只关心in_features有多少维->out_features有多少维，self.out关心这件事情就够了
        # or even simpler, since nn.Linear can accept inputs of any dimension 
        # and returns outputs with same dimension except for the last
        # outs = self.out(r_out)
        # return outs, h_state

rnn = RNN()
print(rnn)

optimizer = torch.optim.Adam(rnn.parameters(), lr=LR)   # optimize all cnn parameters
loss_func = nn.MSELoss()

h_state = None      # for initial hidden state

plt.figure(1, figsize=(12, 5))
plt.ion()           # continuously plot

for step in range(100):
    start, end = step * np.pi, (step+1)*np.pi   # time range
    # use sin predicts cos
    steps = np.linspace(start, end, TIME_STEP, dtype=np.float32, endpoint=False)  # float32 for converting torch FloatTensor
    x_np = np.sin(steps)
    y_np = np.cos(steps)

    x = torch.from_numpy(x_np[np.newaxis, :, np.newaxis])    # shape (batch, time_step, input_size)
    y = torch.from_numpy(y_np[np.newaxis, :, np.newaxis])

    prediction, h_state = rnn(x, h_state)   # rnn output
    # !! next step is important !!
    h_state = h_state.data        # repack the hidden state, break the connection from last iteration
    print('prediction.shape={}'.format(prediction.shape))

    loss = loss_func(prediction, y)         # calculate loss
    optimizer.zero_grad()                   # clear gradients for this training step
    loss.backward()                         # backpropagation, compute gradients
    optimizer.step()                        # apply gradients

    # plotting
    plt.plot(steps, y_np.flatten(), 'r-')
    plt.plot(steps, prediction.data.numpy().flatten(), 'b-')
    plt.draw(); plt.pause(0.05)

plt.ioff()
plt.show()

写这篇文章的起因是，有人问调用 outputs, last_state = tf.nn.static_rnn(cell,inputs) 之后，last_state 和outputs[-1] 相等吗？如果不想等，为什么会不等呢？

其实这也是学习 RNN 的一大难点。我个人认为，学习RNN 最难的地方就是弄明白它的输入和输出是什么。一个简单的回答是，对于一个 RNN 单元，它每次接受一个当前输入 x_t 和前一步的隐层状态 s_{t-1}，然后产生一个新的隐层状态 s_t，也即：s_t = f(x_t,s_{t-1})，其中 f 代表某个函数，对应于 RNN 内部的运算过程。

这种说法并没有错，但是不够好，因为很多时候，把 RNN 的输出和状态区分开来，理解起来会更加顺畅。也就是说，我们认为RNN 是这样一个单元：y_t, s_t = f(x_t, s_{t-1}) ，画成图的话，就是这样：

这也是本文所要强调的地方：务必要区分 RNN 的输出和状态。这么做有什么用呢？先看

先看一个最基本的例子，考虑 Vanilla RNN/GRU Cell（vanillaRNN 就是最普通的 RNN，对应于 TensorFlow 里的 BasicRNNCell），工作过程如下：

这时，s_t = y_t = h_t，区分这俩确实没用。

但是！如果是 LSTM 呢？对于 LSTM，它的循环部件其实有两部分，一个是内部 cell 的值，另一个是根据cell 和 output gate 计算出的 hiddenstate，输出层只利用 hidden state 的信息，而不直接利用cell。这样一来，LSTM 的工作过程就是：

其中真正用于循环的状态 s_t 其实是 (c_t, h_t) 组成的 tuple（就是 TensorFlow 里的 LSTMStateTuple，当然，如果你选择不用 tuple 表示 LSTM 的内部状态，也可以把 c_t 和 h_t 拼起来，合起来拼成一个 Tensor，这样的话它的状态就是一个 Tensor 了，这时做别的计算可能会方便一些，这个其实就是TensorFlow 里的 state_is_tuple 这个开关。），而输出y_t 仅仅是 h_t（例如网络后面再接一个全连接层然后用softmax 做分类，这个全连接层的输入仅仅是 h_t，而没有c_t），这时就可以看到区分 RNN 的输出和状态的意义了。

当然，这种抽象的意义不止于此。如果是一个多层的 Vanilla RNN/GRU Cell，那么一种简单的抽象办法就是，把多层Cell 当成一个整体，当成一层大的 Cell，然后原先各层之间的关系都当成这个大的Cell 的内部计算过程/数据流动过程，这样对外而言，多层的RNN 和单层的 RNN 接口就是一模一样的：在外部看来，多层RNN 只是一个内部计算更复杂的单层 RNN。图示如下：

大方框表示把多层 RNN 整体视为一层大的 Cell，而里面的小方框则对应于原先的每一层 RNN。这时，如果把大方框视为一个整体，那么这个整体进行循环所需要的状态就是各层的状态组成的集合，或者说把各层的状态放在一起组成一个tuple：（这里为什么要用 tuple 呢？直接把它们拼成一个 Tensor 不行吗，tuple 还得一个一个遍历，这多麻烦？答案是，不行。因为多层RNN 并不需要每一层都一样大，例如有可能最底层维度比较高，隐层单元数较大，越往上则隐层维度越小。这样一来，每一层的状态维度都不一样，没法concat 成一个 Tensor 啊！）；而这个大的 RNN单元的输出则只有原先的最上层 RNN 的输出，即整体的。

在这个例子里，大 RNN 单元的输出和状态显然不一样。在这种视角下，多层RNN 和单层 RNN 可以用一个统一的视角来看待，世界清爽了许多。事实上，在TensorFlow 里，MultiRNNCell 就是RNNCell 的一个子类，它把多层的 RNN 当成一个整体、当成一个内部结构更复杂的单层RNN 来看待。我在文章最开始提到的代表 RNN 内部计算的函数f，其实就是 RNNCell 的 __call__ 方法。

再来看最后一个例子，多层 LSTM：