文本:
使用经典的 IMDB 影评数据集作为对象。其中25000 条影评用于训练集,25,000 条用于测试集。 选用训练集作为说明,假设训练集每个句子长度通过keras.preprocessing.sequence.pad_sequences()
函数获得相同的长度,即length=80。句子中每个单词通过Embedding层完成词向量编码后,长度n=100。则获得的网络输入向量为**[25000,80,100]**。即评论数,句子长度,单词向量。
时间序列:
使用pip install quandl
获得Google股价数据集,该数据集包含3424行12列。列使用其中5个属性,训练集选用前2850行,测试集选用后624行。假设窗口长度或者timestep为50,以长度为1滚动构建训练集,则获得的网络输入向量为**[2800,50,5]**。即滚动次数,时间步长,一行变量。
batch:
不论是文本还是时间序列都需要batch,通俗的来说,batch就是把上面所说的25000训练集或者2850训练集按batch的大小分成多少组。假设batch=64,则一次网络输入为上面的[64,80,100]或者[64,50,5],然后在一个batch内并行运算,在接下来的batch中更新参数。以下面的全连接层举例,