AWS运用RNN建立文本正规化系统 降低75%系统错误率

AWS用递归神经网络(RNN)来建立文本正规化系统,实验结果显示,相较于先前最佳的神经系统,采用RNN建立的文本正规化系统错误率降低了75%,另外处理指令延迟率减少63%,若将其他信息加入考虑,像是词性、大写等,错误率可以更进一步下降81%。在对话式AI模型中,文本正规化(Text normalization)是重要的过程,举例来说,若用户对Alexa说:帮我预订下午五点的吃饭,语音识别器会将语音转录为下午五点,为了使系统能够处理该指令,要把下午五点转换为5:00PM,在生成语音的步骤又要转换回来,AWS称5:00PM转换为下午五点的过程为文本正规化,反之则是逆向文本正规化。

在上述的例子中,Alexa系统中的时间表示法有两种,必须要在处理指令的过程转换格式,不只是时间,其他类型的表达法也需要类似的正规化处理,像是日期、电子邮箱地址、号码和缩写,为了实现英文的文本正规化,Alexa现在仰赖数千个手写的规则,随着Alexa与用户互动的范围越广,制定规则成为很容易出错的一环,且Alexa支持的语言越来越多,不太可能重写这些规则,因此,AWS最近采用RNN来建立文本正规化系统。 输入字词数据的模糊性使得文字正规化变得相当重要,例如,根据上下文语意,Dr.这个缩写可能代表博士,也可能是路名,2/3可能是三分之二,也有可能代表2月3日,文字正规化系统在处理这种字词之前,必须考虑上下文,过去处理该问题最佳的方法就是用神经模型,搭配固定长度字词的文本分析器,扫描整句文字,让模型决定如何处理中心词,不过这样的方法相当耗时,AWS则是用注意机制来测量上下文,针对每个输入的文字,注意力机制可以决定哪些字会影响语意。不过,以句子为基础,搭配注意力机制的文本正规化系统实验结果并不理想,AWS的解决方案是将输入资料的句子,在送至神经网络处理之前,先拆分成子字符(subword),相同地,也训练模型产生子字符,再透过一个独立的算法,将网络输出的字符拼成完整的字词,该方法的优点是能够减少神经网络要学会的输入数据数量,也有助于模型处理从未见过的输入词。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值