逐步增加递增子序列_基于RNN的序列标注-第九章-

本文介绍了分层子采样递归神经网络(HSRNNs),用于处理大数据序列。HSRNNs通过递归层次结构减少序列长度,降低计算成本并减少信息传播的扩散。网络结构包括输入层、输出层和多个隐藏层,每个隐藏层的输出序列被用作下一层的输入。通过分层子采样窗口,网络可以处理不同长度的序列。实验表明HSRNNs在语音和手写识别中表现出色,特别是在ICDAR 2009的阿拉伯文手写识别竞赛中获胜。此外,HSRNNs的性能可以通过调整子采样窗口大小、隐藏层大小和层次数量进行优化。
摘要由CSDN通过智能技术生成

5491bb3996f3c0d278a99bb5fa28cf9f.png

英语原作下载链接:

http://www.cs.toronto.edu/~graves/preprint.pdf​www.cs.toronto.edu

第九章 分层子采样网络

到目前为止,我们已经集中于具有单个隐藏层的递归神经网络(或者在双向或多方向网络的情况下的一组断开的隐藏层)。如在第3.2节中所讨论的,这种结构原则上能够任意地逼近任何序列到序列函数,因此对于任何序列标记任务来说应该足够了。然而,在实践中,它倾向于与很长的序列进行斗争。一个问题是,因为整个网络在序列的每一个步骤被激活,计算成本可能过高。另一种情况是,信息倾向于在较长的序列中更广泛地传播,并且具有更长范围的交互作用的序列通常更难从中学习。

当以不同的方式表示相同的数据时,序列长度的影响尤其明显。例如,在我们已经考虑的语音识别扩展中,音频数据已经被预处理成每10 ms的音频包含一个特征向量的序列。如果我们使用原始音频数据,采样率为48 kHz,那么每一个绝对值将是480倍长,因此网络需要大约1/480倍的权重来处理数据以相同的速度。显然,我们不能指望从这样的网络中获得类似的性能。即使给定一个同样大的网络,相关输入之间的典型间隔将是480倍长,这将大大增加对网络内存的需求。

减少数据序列长度的一种常用方法是对它们进行子采样:即,将连续的时间步长聚集到块或窗口中。给定序列处理器的层次结构,其中处理器在一个级别的输出是下一个处理器的输入,我们可以通过在递送层次结构之前对每个输出序列进行二次采样来逐步减少长度。所谓的分层二次抽样通常在计算机视觉等领域中使用,其中的数据量太大以至于不能被“平坦”的体系结构处理(勒肯等人,1998年B;Reisenhuber和Pojo,1999)。除了降低计算成本之外,它还减少了数据的有效散布,因为在层次结构的底部广泛分离的输入被转换成在顶部紧密结合的特征。

本章介绍了用于大数据序列的分层子采样递归神经网络(HSRNNS;Graves和SmitHubER,2009)。虽然我们将重点研究HSRNNs在序列标记中的应用,但是该模型是相当通用的,并且应该适用于许多序列学习问题。

第9.1节详细描述了体系结构,第9.2节提供了语音和手写识别的实验结果。

78b3951bd3e62730450786fa1470e418.png
图9.1:信息流通过hsrnn。输入序列是subsampled然后扫描by a经常隐藏层。隐层激活序列of the是subsampled again and扫描by the next隐藏层。the激活of the最终隐藏层是美联储没有subsampling to the输出层。注意逐步缩短of the序列as it up the层次移动。

9.1 网络体系结构

分层子采样递归神经网络(HSRNN)由输入层、输出层和多个递归连接的隐层组成。层次结构中每个级别的输出序列被用作下一级的输入序列。除了输入到输出层之外,所有输入序列使用预定宽度的子采样窗口进行次采样。在图9.1中勾画了通过HSRNN的全部信息流,而图9.2提供了展开的HSRNN的更详细的视图。该结构与卷积网络(Leun等人,1998 8b)所使用的结构相似,除了具有递归的,而不是前馈的隐藏层。

对于层次结构中的每一层,前向传递方程与标准RNN(参见第3.2节)相同,除了在输入单元上的和由子采样窗口的和之和代替。对于具有H单元的隐藏层,具有i单位的“输入”层(即在层级中的下一层)和大小S次采样窗口,可以计算如下1×T t的T的隐藏激活BTH:

873f14daa75d8ec5dae0770f883bba74.png

04ff4d5de2ae74a20efa6cd8e6b537e9.png
图9.2:展开的HSRNN。相同的权重被重新用于每个沿着序列的子采样和递归连接,给出10个不同的权重组(标记为W1’到‘W10’)。在这种情况下,层次结构有三个隐藏级别和三个二次采样窗口,大小都是两个。输出序列为输入序列的长度的八分之一。

其中WS是输入单元I到IH步骤S中的隐藏单元H的权重

子采样窗口,U= S(t=1)+S是窗口在未采样输入序列中开始的时间步长,而τh是非线性激活函数(可以用第4.6节中的方程替换LSTM块)。如果输入序列长度不是窗口宽度的精确倍数,则在结尾填充零。注意,对于窗口的每个步骤使用不同的权重,给出两个层之间的总SIH权重。这提供了比通常在序列处理中应用的更灵活的子采样的概念,其中子样本窗口的元素使用固定的操作(通常是平均的或最大的)被折叠成单个向量。

通过首先计算关于输出单元的损失函数的导数(与正常RNNs完全相同),然后将误差梯度向后通过层次结构来区分整个网络。每个递归层的梯度可以通过时间的反向传播来计算,如3.2.2节所描述的,上面的层提供了δKT项。梯度也必须通过隐藏级别之间的子采样窗口。对于具有H单元的隐藏层,具有k单位的“输出”层(即层次结构中的下一层),单位导数可以计算如下:

afe99b9cd6836fb6c8daa0b794b8ac38.png

其中t在未取样序列中的时间步中,n =(t + 1)mod S

子采样窗口内的偏移量s =(t / S)+1(其中(t / S)取整)

下降到最接近的整数)是二次采样输出序列中的时间步长

t def∂O

和δi=∂at照常。 如果将LSTM用于隐藏层,则关于激活函数的导数θh'应该用LSTM

衍生产品在4.6节中给出。

9.1.1 subsampling窗口大小

每个subsampling操作降低输出序列的长度,通过因子的窗口的宽度。这两个对的计算成本高的水平,在层次结构中的有效的分离之间的输入值的序列。然而,护理必须考虑让Windows不太大。这是一个输出序列的网络必须是足够长的时间序列为靶点,我们将讨论在第9.1.5进一步。另一个问题是,网络的鲁棒性是一对序列的失真的窗口大小的增加incrementally失落。在极限的窗口是在龙的原始序列,对复发性网络与前馈神经网络。因此,仔细选择的窗口必须是对比赛日期和任务。在这一章的实验,收集的基础是试图保持窗口的大小在每个水平(约等于或稍大,必要时,在较低的水平),同时确保输出序列是足够长的时间在目标序列中的所有数据集。

分层subsampling是经常进行subsample与重叠的窗口。这包括蛛网膜下腔出血(SAH)的利益在每个窗户周围的环境。然而,有用的是能够使用他们自己的风险复发的供应作出的连接,使redundant重叠。此外,利用两个重叠的计算成本和增加之间的有效距离在事件中使用的motivations subsampling第一层次中的位置。因此,这是不overlapped Windows中使用的书。

1.2 1.2隐藏层大小

隐层大小可以独立于子采样窗口而变化。

尺寸。这意味着隐藏层序列中的信息量。

可以增加,减少或保持相同的,因为我们向上的层次结构。更多

如果隐藏层有H单位,下面的层有I单位和

子采样窗口是大小S,然后是更高层的输出序列。

包含H作为下层的许多比特。这与SI相反。

通常的信号处理中的子采样的概念,其中子采样序列中的向量总是与输入序列中的向量相同大小。然而,传统的子采样主要用于降低信号的比特率,而对于HSRNNs,我们更关心减少序列的长度,甚至可能想要增加比特率。

如同所有的神经网络体系结构一样,HSRNNs的性能随着隐藏层的增大而增加(至少在早期停止或一些其他正则化方法被用来防止过拟合)。与普通RNNs不同的是,还必须考虑层次结构中不同级别的隐藏层的相对大小。一个很好的经验法则是选择层的大小,以便每个级别消耗大约一半的处理时间的水平以下。例如,如果第一个隐藏层包含i个单位(需要大约每一个时间步长的I2权重操作),并且被再采样到宽度的S窗口中,那么给出下一个隐藏的H级单元。

b221fc4cf0ea8b6db5ed3e704d8f29ef.png

这种方法确保总的处理时间永远不超过单独的最低隐藏层的两倍,导致在层级顶部比底部更大的层。因此,网络从一些高分辨率特征发展到许多低分辨率特征,这对于分层子采样系统来说是典型的。

9 1.3层级数

已经反复注意到,使用梯度下降训练具有多个层的神经网络是困难的(Heton等人,2006;Bunio等人,2007)。这实质上是对RNNs的消失梯度问题的重述:输出层对给定隐层的灵敏度趋向于减少它们之间隐藏的层,正如RNN输出到过去输入的灵敏度随着时间步长的数量而减小。它们长大了。因此,通过增加额外的隐藏级别提供的效率和紧凑性的增益之间的折衷,以及增加网络训练的难度。在实践中,三层似乎为宽范围的数据和任务提供了良好的性能,并且本章中的所有实验使用三层网络。

91.4多维网络

HSRNNs向上一章所覆盖的多维网络的扩展是简单的:一维的子采样窗口被多维窗口代替。因此,在(9.1)中的子采样窗口中的时间步长的总和被替换为点上的多维总和,并且相应地修改导数计算。借用卷积网络的术语,我们有时会参考二维网络层次的输出序列作为特征映射。

9 1.4.1多向网络

在SETISO-2.2.1(其中双向RNS部分3.2.4是一种特殊情况)中描述的多方向MrNNS的分层子采样由于每个层次需要2N隐层而不是一个层而变得复杂。因此,将每个层中的每一层连接到下一层的每个层需要O(22N)权重。减少权重的一种方法是将水平与非线性前馈层分离,这将水平之间的权重的数目与O(2n)-标准MDRNNs相同。

通过前馈层的多方向HSRNN的信息流如图9.3所示。

与隐藏层一样,应选择前馈层的大小以平衡性能与计算时间。前馈层作为信息到达更高级别的瓶颈,并且使得它们太小会妨碍网络。作为经验法则,将每一个前馈层与下面的组合隐藏层的一半和一倍的单位相比较,似乎在实践中很好地工作。然而,我们发现它有利于调整精确的前馈单元的数量为每个实验。

与网络的其余部分不同,偏置权重通常不连接到前馈层,因为它们看起来与性能没有差别(推测递归层中的偏差能够补偿)。

8f9137c5668edf264199bc2f460b5758.png
图9.3:通过多方向HSRNN的信息流。每个隐藏层由两个在反向方向上扫描的重复层组成。每对隐藏的水平由前馈层分隔(没有扫描箭头)。子采样是在用“*”表示的地方进行的。注意,在被馈送到输出层之前,最终隐藏电平的输出既不是次采样也不是通过前馈层。

5.1.5输出层

原则上,HSRNNs可以用与普通RNNs相同的输出层来训练。然而,必须注意确保输出序列对于相应的损失函数具有正确的形状。例如,HSRNNs显然不适合于帧分类或其他任务,其中每个输入需要单独的输出,因为这将使子采样imPoS-易用。另一方面,用CTC(第7章)训练的HSRNN必须输出至少一维长度序列,而用于序列分类的HSRNN必须单独发射一个输出。

如果输入和输出序列的维数是固定的,或者即使它们之间的关系是固定的(例如,如果每个固定长度的输入段需要单个分类),则可以选择子采样窗口以确保输出序列是正确的形状。然而,这本书的重点是关于标签被应用于输入模式的问题,这些模式具有广泛的持续时间或形状。在下文中,我们描述了一种简单的技术,以确保HSRNN的输出可用于序列和时间分类。

7.1.5.1序列分类

也许用RNN分类完整序列的最明显的方法是在序列的末尾输出单个分类。然而,对于双向或多向网络来说,这显然是不切实际的,其中序列在不同层的不同点处结束。它还需要网络来存储分类所需的信息,直到序列的末尾-这可能是一个很长的方式,从那里接收到的信息。

另一种在图像分类实验中使用的方法是对输出序列中的每个点进行独立的分类,然后对类概率进行汇总,以找到最高的排名级。这种方法适用于多向网络,并且允许网络基于刚刚从输入序列接收到的信息进行本地化分类。然而,它要求网络进行冗余分类,因此不符合神经网络作为从输入序列到目标分布的单值函数的概念。

本章所采用的解决方案是首先将输出序列折叠到一个点,然后对其进行分类。这可以通过在输出序列中的所有点P对每个输出单元求和来实现,然后应用SOFTMax函数:

4c66db85484a8e5c264730c9603759fd.png

除了允许网络选择序列中的哪些地方进行预词外,使用求和法可以在不同的地方做出不同的预测,然后根据它们的置信度在最终分类中相互加权。

91.5.2联结主义时间分类

长输出序列到短目标序列的减少被建立在CTC损失函数中,并且原则上不必由HSRNN提供。然而,对于非常长的输入序列,例如原始语音数据,使用子采样来减少输出序列长度到十左右的目标序列长度的因子是非常有益的。

对于多维HSRNNs,在应用CTC之前,输出序列必须沿其所有维度折叠。例如,如果任务是转录手写文本的图像,则输出序列应该垂直折叠(至少对于水平书写的语言)。如果任务是转录手语手势的视频序列,则输出应该沿着两个空间维度折叠,只留下时间维度。

如果输入序列的形状沿要被删除的维度固定,则可以通过选择正确的子窗口大小来确保合适的输出序列。在视频转录的情况下,这是相当可行的,因为视频数据的空间维度通常是固定的。如果输入序列的形状是可变的,我们可以使用与输出单元激活相同的求和技巧,因为我们用于序列分类,只有在输出序列维数中的一个以上的总和上运行。

7f2e32d545bb7e3b90bdb780f9c32a51.png

其中第n维是应用CTC的一个维度。

9.1.6 系统完成

HSRNN与CTC或分类输出层的组合提供了用于标记大数据序列的灵活系统。可以调整子采样窗口以适应宽范围的输入分辨率,并且可以选择网络的维数来匹配数据的维数。图9.4示出了一个完整的二维、多方向HSRNN COM撬-MLDLSM层、前馈层和CTC输出层,应用于脱机阿拉伯文手写识别。

9.2 实验

本节通过语音和手写识别实验评估HSRNNs的实际疗效。迄今为止,HSRNNS的杰出成就是在2009届国际文献分析与鉴定会议上,在三个不同的局域网上赢得了手写识别竞赛。这些结果在第92.1至92.4节中被回顾,而第92.5节使用三个不同的声学数据的不同表示在TIMIT数据库上呈现音素识别结果。

HSRNNs包含相当多的手动调谐参数(子采样窗口大小、多个隐藏层大小等),而不是我们之前所考虑的RNNs。然而,大多数这些可以保持恒定的一系列广泛的序列标签任务。在接下来的过程中,我们区分了三种不同类型的参数:那些固定在本章中的所有网络的参数;那些由任务、数据或其他参数自动确定的参数;以及那些为每个网络手动调整的参数。只有后两个类别中的参数将被指定为单个网络。

固定参数

层次包含三个层次。

这两个前馈层用TANH分离出三个水平。

激活函数。

在三个地方应用子采样窗口:输入序列、第一隐藏级别的输出序列和第二隐藏级别的输出序列。

网络架构是双向的LSTM(第4.5节),用于所有实验的一维数据,以及用于二维数据的所有实验的多方向MDSLSTM(第82.1节)。因此,每个层次的层次包含一维数据的2个隐藏层和二维数据的4个隐藏层。

隐藏层被递归连接(所有输入单元连接到所有隐藏单元,所有隐藏单元连接到所有输出单元和所有隐藏单元)。

LSTM块每个包含一个单元。

LSTM栅极激活函数(图4.2中的F)是Logistic SigMID:F(x)=1(/ 1±E×x),而单元输入和输出函数(图4.2中的G和H)都是TANH。

在线最速下降用于训练,动量为0.9,学习率为1E~4。

一个验证集用于早期停止。

权重从高斯分布中随机地初始化。

平均值为0,标准差为0.1。

在训练集上标准化的输入平均值为0,标准偏差为1。

·使用左上像素的颜色,从所有输入图像中剪裁“空白”。

自动确定参数

输入层的大小(由输入表示确定)。

输出层的大小(由目标表示确定)。

·层次结构中的权重总数(由层大小决定)。

输出层类型(CTC或分类)。

用于CTC解码的字典中的单词数。对于本章中的所有任务,字典解码仅限于单个单词(7.5.3.3节)。对于包含单词变体的字典,大小被记录为“单词/变体”。

手调谐参数

在层次结构的每个层次中的递归层中的LSTM块的数量(注意,同一层中的每个层总是具有相同的块数)。如果层包含第一层中的块、第二层中的B块和第三层中的C块,那么这将缩写为“递归大小:A、B、C”,因为LSTM块总是包含一个单元,对于一维层,每个块总共有四个隐藏单元;和二维块的五块。

3eae10361cfa281d951c4cf69e9de11d.png

7.2.1脱机阿拉伯文手写识别

2009届国际文献分析与识别会议(ICDAR 2009)(M Mr.AgNER和ABED,2009)的离线阿拉伯语手写识别竞赛是基于公开的手写阿拉伯字母IFN/EIT数据库(Powitwitz等人,2002)。数据包括32492幅黑白手写的突尼斯城镇名和村庄名,其中我们使用了30000个培训,2492个用于验证。从400多名突尼斯人填写的表格中提取。这些表格被设计成模拟字母的书写,不包含任何线条或框来限制写作风格。示例图像如图9.5所示。

每个图像都提供了相应字符的手工抄写,以及相应城镇的邮政编码。共有120个不同的性状,包括变异形式的初始,中间,最终和孤立的字符。任务是从937个城镇名称和相应的邮政编码列表中识别邮政编码。许多城镇名称都有转录变体,在完整的邮政编码词典中总共有1518个条目。

测试数据(未公布)分为F集和S集。主要比赛结果基于集合F。SET’s使用相同的形式包含在阿拉伯联合酋长国中收集的数据;其目的是测试识别者对区域写作变化的鲁棒性。这些条目根据它们在集合F上的性能进行排序。此外,每个系统的识别时间被记录在两个额外的子集上,标记为T和T1。

7.2.1.1实验装置

三个HSRNNs进入比赛,略有不同的参数。在竞争中,他们被称为“MLDLSTM 9”、“MLDLSTM 10”和“MLDLSTM 11”。三个系统的训练参数列于表9.1中。网络9和10是相同的,除了标签错误率被用于早期停止与前者,而CTC错误与后者一起使用(事实上,它们是在同一训练过程中创建的,在不同点记录的权重)。网络11在所有隐藏层中的数量是其他两个网络的两倍(总共给出三倍以上的权重)。

7.2.1.2结果

比赛结果汇总在表9.2中。三个HSRNNS(组ID‘MLDLSTM’)在识别率和速度方面都优于所有其他条目。

06c18047712f726534d4f8611451edb1.png

网络9和10之间的整体性能差异是可以忽略不计的,这表明选择用于早期停止的错误度量并不重要(尽管使用CTC损失进行早期停止往往会导致较短的训练时间)。特别令人感兴趣的是,对于两个错误度量,SET S(具有来自阿拉伯联合酋长国的手写)的性能是相同的。比较两种停止标准的最初动机是为了更好地从不同的分布中提取测试数据。一个假设,这是不支持的实验,是使用CTC损失作为一个停止标准将导致更少过拟合(因为它被最小化得更早),因此更好地推广到不同的测试数据。

网络11在网络9和10上给出了2%的改进N字识别。虽然意义重大,但这种改进的代价是单词识别时间增加了三倍多。对于时间必须与精度交易的应用,网络层中的单元数量(因此网络权重的数目)应相应地调整。

图9.6显示了网络9和10在训练过程中的误差曲线。注意,当字符错误最小化时,CTC错误已经很好地超过了它的最小值,并且已经大幅上升。这对于CTC网络来说是典型的。

网络9完成86个时代后的训练,49个时代后的网络10,153个时代之后的网络11。

92.2在线阿拉伯文手写识别

在ICDAR 2009(ABED等人,2009)的在线阿拉伯语手写识别竞赛是基于阿拉伯语在线手写字的ADAB(阿拉伯数据库)数据库。该数据库包括15158个在线笔迹,对应于来自130个不同作者的手写阿拉伯语单词。笔迹被细分为单独的笔画,其中每一笔提供的X和Y坐标的列表(以每秒125个样本的速率记录)。这些单词选自984个突尼斯镇名和乡村名的词典,并提供了培训手册。不同于离线竞争提供的转录,这些被指定为UNI代码字符,从它们的上下文推断出中间字符、初始字符和最终字符之间的区别。因此,只有45个不同的字符在转录,而不是120的离线竞争在前一节。

训练集分为三组,用第四(未发表)集进行测试。任务是使用984字词典正确地识别测试集中的城镇名称。组织者记录了前一名、前五名和前十名的识别率,并根据一个答案对其成绩进行排名。还记录了两组测试集(t′′和t1′)上每个图像的平均识别时间。1, 523的训练序列被用作早期停止的验证集。

7.2.2.1实验装置

两个网络被提交给比赛。对于第一个“在线”网络,笔迹直接馈入一维HSRNN。这种表示需要三个输入单元:x和y笔坐标两个,一个作为“笔画结束”标记。对于第二个“离线”网络,笔迹首先被转换成黑白图像,然后由二维HSRNN处理。通过在笔画的笔画坐标之间绘制直线,并将得到的形状叠加在一起形成图像。图9.7中显示了原始和离线表示的说明。

网络参数列于表9.3中。对于这两个网络,相同的标签被用于字符的初始、中间和最终形式,总共有46个CTC输出单元。更好的结果可能是通过使用不同形式的不同标签(如在第92.1节的离线竞争中所做的)来实现的。

7.2.2.2结果

在这个竞争中,两个HSRNNs在精度和速度方面都超过了VISIONTORKS输入的识别系统。“在线”网络需要85个时代来训练,而“离线”网络则需要91个时代。

7ed67b7d73e4d09bacf03c24040f3d9f.png

b9f3557c20b2e622c6c59388577815b5.png

fa7ac002012d5a33a116a47d103b5ebb.png

29c5b05d3c928feed462832953fc24a6.png

92.3法语手写体识别

在ICDAR 2009(Graski和AbED,2009)的法国手写识别竞赛是基于法国邮件片段的RIMES数据库(GRROKICI等,2009)的一个子集。44195手抄本,孤立字图像被提供用于训练,另外7542个图像被用作验证集。示例图像如图9.8所示。转录包含81个不同的字符,包括上下字母(有和没有重音),数字和标点符号。一个额外的(未发表)测试集的7464个孤立的单词被用来评估性能。

在测试集上定义了三个任务,仅在用于解码的字典中不同。第一个被称为“WR1”,为测试集中的每个单词定义了一个不同的100字字典。每个字典包含正确的单词加上从测试集随机选择的其他99个单词。第二个任务(WR2)使用了由测试集中的所有单词组成的1612字字典。第三(WR3)使用5534字词典组成的所有单词在测试和训练集。对于测试集中的任何给定单词,“WR1”字典是“WR2”字典的子集,它是WR3字典的一个子集。由于在词典中添加不正确的单词只能使解码变得更困难,任务的难度从WR1到WR2增加到WR3。

a0b0c663b03ba4729c74986316a4370b.png

7.2.3.1实验装置

一个单一的二维HSRNN被提交给竞争,有三个不同的字典(对应于用于解码的三个任务WR1′、‘WR2’和‘WR3’’)。请注意,网络只训练一次,因为字典不影响CTC损失函数。网络参数列于表9.5中。

7.2.3.2结果

三项任务的竞赛结果汇总在表9.6中。HSRNN在所有比赛中表现最好,赢得了比赛。它被训练了66个纪元。

92.4波西语/阿拉伯字符分类

在ICDAR 2009的法西斯/阿拉伯文字符分类竞争是基于从HOLDA(KOSRAVII和卡比尔,2007),Farsi CENPARMI(Selimang浇注等,2006)和扩展IFHCDB(Mozaffari等人,2006)数据库绘制的数据。比赛分为字母分类和数字分类两个任务。在这两种情况下,一组训练的孤立字符的手标记图像被提供给竞争对手,而(未公开的)测试集被组织者用来评估系统。有34个不同的字母和12个不同的数字。针对字母任务的训练集包含106, 181个图像,其中10, 619个用作验证集,而测试集包含107992个图像。数字任务的训练集包含106, 000个图像,其中3, 008个被用作48000个图像。数字和字母图像的例子如图9.9所示。

473d46bfe6d33eafc09e22ebbe9eb63a.png

7.2.4.1实验装置

对图像进行预处理,将其与所有像素上的白色像素相等地填充,以获得77像素的最小宽度和95像素的最小高度;这发现可以提高非常小字符的性能。字母数字分类竞赛用网络的名称列于表9.7。由于这些是序列分类任务(第2.3.1节),所以使用分类输出层代替CTC层。

92.4.2结果

比赛结果汇总在表9.8中。HSRNN对字母数据集的分类精度最高,并被宣布为竞赛的获胜者。“字母”网络需要76个训练历元,而“数字”网络需要44个。

5.2.5音素识别

a6a5ceb5afb6587f98590c4e820b663e.png

本节比较两个HSRNNS和一个非分层RNN的音素识别精度,每个RNN具有不同的输入表示。在TIMIT语音语料库(Garofolo等人,1993)中使用NETS7.7.2中描述的39个音素的核心测试集和简化字母表对网络作品进行了评价。三个输入表示为:

原始16KHz的采样序列直接来自音频文件。光谱图图像。

Mel频率倒谱(MFC)系数。

747200334834b0e392d429f26d99e9a6.png

794266112420ccff83a31fd2656fb8f1.png

根据韦尔奇’s PoodoGrand’算法(韦尔奇,1967),使用“MyPultLIB”Python TooToice(ToSi,2009)的“SPEC—GM”函数的样本序列计算谱图,其中的参数如下:傅立叶变换窗宽254个样本。n重叠127个山姆(分别对应于15875毫秒和7.9375毫秒)。MFC系数精确地计算在7.7.2节中。图9.10显示了来自TIMIT数据库的单个话语的三个表示的示例。

7.2.5.1实验装置

在表9.9中列出了三种网络的参数,称为“原始”、“谱图”和“MFC”。所有三个网络都用加权和外加权噪声进行评估(第3.3.2.3节),标准偏差为0.075。原始网络有一个单独的输入,因为TimIT音频文件是“单声道”,因此每个样本都有一个通道。前缀搜索CTC解码(第7.5节)用于所有实验,概率阈值为0.995。

7.2.5.2结果

实验结果列于表9.10中。与7.7.1节中的实验不同,没有重复的运行,因此很难确定差异是否显著。然而,“谱图”的网络工作表现出最好的性能,“原始”和“MFC”网络大致相等。

MFC网络的训练次数比其他任何一个都要少得多;这与7.7.4节中的结果相呼应,其中学习来自

d62ae892343d9cda7b7d01e57716ba90.png

对于MFC网络,输入的训练,而不是重量噪声给出了相当好的性能,如表7.3所示。然而,高斯-西安输入噪声不利于其他两个表示的性能,因为如3.3.2.2节中所讨论的,它不反映输入数据的真实变化。权重噪声,另一方面,似乎同样有效的所有输入表示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值