循环神经网络文本与时间序列感想

本文探讨了循环神经网络在处理文本和时间序列数据的应用。在文本分析中,以IMDB影评数据集为例,通过Embedding层将句子转化为固定长度的向量;在时间序列分析中,利用Google股价数据,设置不同窗口长度进行预测。同时,介绍了batch的概念,它是将数据集分组以实现并行计算,提高训练效率。
摘要由CSDN通过智能技术生成

文本:

使用经典的 IMDB 影评数据集作为对象。其中25000 条影评用于训练集,25,000 条用于测试集。 选用训练集作为说明,假设训练集每个句子长度通过keras.preprocessing.sequence.pad_sequences()函数获得相同的长度,即length=80。句子中每个单词通过Embedding层完成词向量编码后,长度n=100。则获得的网络输入向量为**[25000,80,100]**。即评论数,句子长度,单词向量。

时间序列:

使用pip install quandl获得Google股价数据集,该数据集包含3424行12列。列使用其中5个属性,训练集选用前2850行,测试集选用后624行。假设窗口长度或者timestep为50,以长度为1滚动构建训练集,则获得的网络输入向量为**[2800,50,5]**。即滚动次数,时间步长,一行变量。

batch:

不论是文本还是时间序列都需要batch,通俗的来说,batch就是把上面所说的25000训练集或者2850训练集按batch的大小分成多少组。假设batch=64,则一次网络输入为上面的[64,80,100]或者[64,50,5],然后在一个batch内并行运算,在接下来的batch中更新参数。以下面的全连接层举例,

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值