序列标注_基于RNN的序列标注-第七章 连接时序分类(1)

99e88468ca7da007a0ca65c84756e36d.png

英语原作下载链接:

http://www.cs.toronto.edu/~graves/preprint.pdf​www.cs.toronto.edu

第七章 连接时序分类

本章介绍将连接时序分类(Connectionist Temporal Classification,CTC)模型,他可以作为RNN结构的输出层(Graveset al.,2006)。从名字可以看出,CTC模型专门用于时序分类任务的建模,也可以说是用于处理这样的一种序列标注问题,这种序列标注数据输入和输出之间的没有一一对齐。与上一章中的混合HMM方法不同,CTC只需使用神经网络就可以对序列的所有方面进行建模,而不再需要将RNN与HMM结合。此外,CTC模型也不需要对训练数据预先分段或者对模型网络的输出进行额外处理以获取序列标签。

在语音识别和手写识别的实验中,用CTC作为输出层的Bi-LSTM网络是一种有效的序列标签方法,其通常优于标准HMM和融合HMM-ANN以及其他序列标注算法,例如large margin HMM (Sha and Saul ,2006)和条件随机场(Lafferty et al, 2001)。

第7.1节介绍CTC以及将CTC用于时序分类的动机;第7.2节给出如何将CTC输出结果映射到标签序列的方法;第7.3节介绍如何计算给定标签序列概率的算法;第7.4节给出用于网络训练的loss函数;第7.5节介绍如何用CTC进行解码的方法;实验结果放在第7.6节中给出;关于CTC网络和HMM之间的差异在第7.7节讨论中给出。

7.1 背景知识

1994年,Bourlard和Morgan给出了纯连接主义(即基于神经网络)方法在连续语音识别上失败的原因:

  • 对于连续语音识别,神经网络进行有监督的训练至少存在一个根本性的困难:即使针对分割未知的连续语音单元进行训练,也必须定义目标函数。(布拉德和摩根,1994年,第5章)

换句话说,训练神经网络需要为输入序列中的每个时间步指定训练目标。这就造成两个重要的后果:首先,必须对训练数据进行预先分段,提供每个时间步的训练目标。其次,由于网络只输出局部分类,因此序列的全局方面(如两个标签连续出现的可能性)必须在外部建模。事实上,如果没有某种形式的后处理,最终的标签序列根本无法可靠地推断出来。

在第6章中,我们展示了如何将RNN混合HMM用于时序分类。但是,混合方法除了继承HMM的缺点(将在第7.7节中深入讨论)之外,而且不能够利用RNN的全部潜力来进行长距离的序列建模。因此,对与时序分类任务,直接训练RNN似乎更为可取。

连接时序分类(Connectionist temporal classification,CTC)为了实现时序分类,允许网络在输入序列中的任意点进行标签预测,只要标签的总体顺序是正确的。通过这样的方法就可以消除了数据预先分段的需求,因为标签与输入的对齐在CTC中不再重要了。此外,CTC可以直接输出完整标签序列的概率,这意味着不需要额外的后处理模型来进行时序分类。

图7.1给出了CTC和基于帧分类在语音识别上的区别。彩色线是在特定时间观察音素的概率。 CTC网络只预测音素序列(通常是一系列尖峰,以'空白'分隔,或空预测,其概率显示为灰色虚线),而基于帧分类的网络试图将音素概率输出与手动分割对齐(垂直线)。

2f53a794004f8ee12df1ff8b5327ba7b.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值