LSTM: A Search Space Odyssey||LSTM变种的效果研究

38 篇文章 5 订阅
14 篇文章 0 订阅

 

元学习论文总结||小样本学习论文总结

2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019

 


论文:https://arxiv.org/pdf/1503.04069.pdf

一、摘要:

文章基于三种场景(speech recognition, handwriting recognition, and polyphonic music modeling)比较了8种LSTM变种的性能。作者发现每一种变种并不能显著优于其他变种。同时发现遗忘门和输出激活函数是LSTM最关键的组成部分。作者观察到,所研究的超参数实际上是独立的,并提供了有效调整超参数的指导方针。使用fANOVA framework来评估模型的效果。


二、标准LSTM(vanilla LSTM)

作者把Graves and Schmidhuber [20]的模型作为标准参考模型(这是一个双向LSTM网络BLSTM,采用TIMIT数据库做评估),称为vanilla LSTM,用以比较评估8个其他变种的性能。


三、模型评估办法

模型评估并不追求达到最佳性能,更强调公平性。以vanilla LSTM为基准,适时修改结构,在三个数据集做评估,以此评价模型跨域性能。

为了尽可能使每个模型达到自己的最佳性能,作者对变体单独调参。由于超参数空间很大并且不可能完全遍历,所以使用随机搜索以获得对于变体和数据集的每一个组合的良好执行的超参数。


3.1 数据集

对数据集,每个数据集分为三个部分:训练集、用于早期停止和优化超参数的验证集,和用于最终评估的测试集。

使用TIMIT语音语料库作为语音识别基准。作者对TIMIT数据集做了预处理。评价标准是分类误差百分比,训练、测试和验证集按照划分为3696、400和192个序列,平均304个帧。作者只使用核心测试集。

使用IAM Online数据集评价手写数字识别,作者将两个验证机做了合并,因此,最终的训练、验证和测试集分别包含5355、2956和3859序列。每个序列子采样到其长度的一半,这加速了训练并且不损害性能。

JSB Chorales数据集用于polyphonic music modeling测试,完整的数据集由229、76和77个序列(分别为训练、验证和测试集)组成,平均长度为61。


3.2 模型训练

一个具有一个LSTM隐藏层和一个sigmoid输出层的网络被用于JSB合唱团任务。双向LSTM用于Timit和IAM在线任务,包括两个隐藏层,一个处理输入前向和另一个反向时间,都连接到一个单Softmax输出层。

对损失函数,对Timit和JSB合唱团使用了交叉熵误差,而对于IAM在线任务,使用了Graves等人的连接性时间分类(CTC)损失。

所有网络的初始权值都是标准差为0.1的正态分布;训练是采用Nesterov-style momentum 随机梯度下降进行;学习率采用(1-momentum)来调节;使用LSTMS的全BPTT计算梯度;停止条件,一是达到150次epochs,二是15次Epochs后验证集准确率没有改进。


3.3 超参数的搜索办法

采用随机搜索,随机搜索具有以下几个优点:易于实现,并行化简单,搜索空间覆盖更均匀。进行了27次随机搜索,每次随机搜索包括200项试验,共计5400项随机抽样试验,其中包括下列超参数:

  • 每个隐藏层的LSTM块数:log-uniform samples from [20, 200];
  • 学习率log-uniform samples from [10−6 , 10−2 ];
  • 动量: 1 − log-uniform samples from [0.01, 1.0];
  • 高斯噪声standard deviation of Gaussian input noise: uniform samples from [0, 1].

结果与讨论

5400个实验在128个2.5GHz的Opteron CPU上运行,平均完成时间为24.3 h。

对Timit来说,最佳试验的测试集性能为29.6%的分类误差(CIFG)。在JSB合唱团数据集上的最佳结果是-8.38对数似然(Niaf),远低于Boulanger-Lewandowski等人的-5.56。对于IAM在线数据集,最佳LSTM结果为26.9%,我们的最佳结果是测试集中9.26%(NP)的字符错误率。本研究的目的不是提供最新的结果,而是对不同的LSTM变体进行公平的比较。所以这些数字对读者来说只是粗略的定位。


输入和遗忘门耦合(CIFG)在任何数据集上都没有显着地改变平均性能,尽管最佳性能在音乐建模上略有提高。同样,删除窥视孔连接(NP)也没有导致显着的变化,但最好的性能略有改善的手写识别。这两个变体都简化了lstm并降低了计算复杂度,因此将这些更改合并到体系结构中可能是值得的。


添加全栅极重复(FGR)在TIMIT或IAM线上没有显著改变性能,但会导致JSBChores数据集的更差结果。鉴于此变体极大地增加了参数的数量,我们通常建议不要使用它。请注意,此功能存在于LSTM[14,15]的原始方案中,但在以下所有研究中都不存在。


去除输入栅极(NIG)、输出栅极(NOG)和输入激活功能(NIFAF)导致语音和手写识别性能的显著降低。然而,对音乐建模性能没有显著影响。在音乐建模方面,对于NIG和NIFAF架构,观察到了较小(但具有统计意义)的平均性能改进。我们假设这些行为将推广到类似的问题,如语言建模。

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值