如何构建RNN神经网络的输入

最新推荐文章于 2025-04-02 14:54:20 发布

西檬饭

最新推荐文章于 2025-04-02 14:54:20 发布

阅读量6.1k

点赞数 15

分类专栏： RNN 文章标签： RNN

本文链接：https://blog.csdn.net/qq_23869697/article/details/87190769

版权

RNN 专栏收录该内容

7 篇文章

订阅专栏

本文深入解析了循环神经网络(RNN)及其变种长短期记忆网络(LSTM)的工作原理，详细阐述了时间序列处理中的关键概念，如时间步、序列长度及输入尺寸等，并对比了RNN与全连接神经网络的输入结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

普通的RNN：
rnn
因为这个左边图中间循环的箭头难以理解，所以将其按照时间轴展开成多个单元。网络只有一个，网络只有一个,网络只有一个，并不是想右边那样画的。右边的图只不过是不同时刻的输入。因为每个时刻RNN会产生两个输出，一个output和一个state，上一个时刻state和当前作为输入给当前网络，就如右图所示。上图很容易造成了误解。

全连接成的输入
图出自： https://zhuanlan.zhihu.com/p/36455374

对于时间序列，引入时间步的概念： Xt表示时间步(time_step)，每个时间步上的输入对应序列上的特征。比如有个3通道的声音的序列为64*3，64表示序列的长度，时间步也是64，每一步时间步输入只是3通道上一个数值。

图出自： https://zhuanlan.zhihu.com/p/36455374

上图RNN展开的正确理解方式是这样的：

再理解几个概念：sequence length，input size， hidden unit
序列长度（sequence length）也可以理解为时间步(time step)比较好理解。比如一个语音输入，语音的长度就是序列长度。
input size表示一次输入的特征向量的大小。比如上面的全连接层神经网络，当batch_size为1是，输入的shape就是1x3。

x = tf.placeholder(tf.float32, shape=[None, 3])

hidden unit 指的就是有多少个LSTM cell或者GRU。

全连接神经网络的输入与RNN的输入比较：
diff
知乎隔壁小王的回答：链接：https://www.zhihu.com/question/41949741/answer/342218083
例如这样一个数据集合，总共100条句子，每个句子20个词，每个词都由一个80维的向量表示。在lstm中，单个样本即单条句子输入下（shape是 [1 , 20, 80]），假如设定每一个time step的输入是一个词（当然这不一定，你也可以调成两个词或者更多个数的词），则在t0时刻是第一个时间步，输入x0则为代表一条句子（一个样本）中第1个词的80维向量，t1是第二个时间步，x1表示该句子中第2个词的80维向量，依次类推t19输入是最后一个词即第20个词的向量表示。常见的tf或者keras中lstm的参数（samples， timestep， input_dim），samples是指批量训练样本的数量， timestep是时间步（这个时间步可自己设置）比如上面说的20，input-dim是每个time step的输入shape。

知乎撸猫的大王的回答： https://www.zhihu.com/question/41949741/answer/232424403
假如数据集是（5000，28，128），其中5000指的是样本个数，（28，128）便是具体每个样本的行列数，28就是lstm中的时间步数；假如定义一个lstm层为 LSTM（output_dim= 256，activation=，input_shape= （28，128）），那么每个时间步输出的是一个元素个数为256的一阶向量，所有时间步集合起来就是（28，256）的二阶向量。至于模型是用所有时间步的输出，还是只用最后一个，就看具体怎么设计了。

知乎 EDU GUO 的回答：
lstm

实际应用中，我们通常使用的是Tensorflow中定义好的单元搭建RNN，或者直接使用keras。那么这两个框架中的输入形式是怎样？

使用LSTM单元静态搭建一个RNN

tf.contrib.rnn.static_rnn(cell, inputs, initial_state=None, dtype=None, sequence_length=None, scope=None):

关注参数inputs
inputs:A length T list of inputs, each a Tensor of shape [batch_size, input_size], or a nested tuple of such elements.输入数据形状为[batch_size,input_size]

使用LSTM单元动态搭建一个RNN

tf.nn.dynamic_rnn(cell, inputs, sequence_length=None, 
　　　  initial_state=None, dtype=None, parallel_iterations=None, 
       swap_memory=False, time_major=False, scope=None):

inputs：If time_major == False (default), this must be a Tensor of shape:[batch_size, max_time, depth], or a nested tuple of such elements. If time_major == True, this must be a Tensor of shape: [max_time, batch_size, depth], or a nested tuple of such elements. 输入数据，是一个张量，默认是三维张量，[batch_size, max_time, depth]，batch_size 表示一个批次数量，max_time:表示时间序步总数，后面是一个时序输入数据的维度。
在默认情况下，time_major默认值是False，网络输出结果是[batch_size,max_time,depth]形式的张量。
这是一个批次优先的矩阵，当我们需要取最后一个时序的输出，需要转置成时间优先的形式。