原本以为自己懂的,可是看着看着论文,就越来越不知道Recurrent NNs(这里不区分LSTM,GRU)的输入输出到底是怎么样的。所以,查阅多篇资料,整合如下,希望能帮到大家。
首先,用「动图」和「举例子」讲讲 RNN(里面的动图非常容易让大家理解每个timestep如何喂数据的)
其次,以一个操做实例来具体讲一下Recurrent NNs的工作流程:
答案来源于知乎作者Scofield
- step 1 raw text:
sentence : “今天天气真好”
- step 2 tokenize (中文分词)
今天 天气 真好
- step 3 dictionarize(将每个词转化为在字典中的索引)
31 45 2
- step 4 padding every sentence to fixed length
31 45 2 0 0
(假设fixed length = 5)
- step 5 mapping token to an embeddings
每一列代表一个词向量,维度自定义。矩阵的列数为一个句子的token个数,也是time_step length。对当前句子来说,token值为5,time_step也为5。
- step 6 feed into RNNs as input
每个sentence的每个token的embedding对应了每个时序 t 的输入。即time_step=1时,input为第一个词的词向量,词向量中的每一个元素对应输入层的每个节点。
- step 7 get output
(后面会讲隐藏层和最后输出的区别,这点在pytorch中困扰我好久了)
- step 8 further processing with the output
我们可以将output根据分类任务或回归拟合任务的不同,分别进一步处理。比如,传给cross_entropy&softmax进行分类,或者获取每个time_step对应的隐状态 ,做seq2seq 网络
最后,讲一下“隐藏”和“输出”之间有什么区别。
PyTorch LSTM中“隐藏”和“输出”之间有什么区别
output 包括最后一层中的所有隐藏状态(“最后”深度方式,而不是时间方式,即所有时刻最后一层的隐层状态)。 (h_n, c_n) 包括最后一个时间步后的隐藏状态,所以你可以将它们送入另一个LSTM。