端到端语音识别(三) Sequence to Sequence and Attention

本文介绍了RNN Encoder-Decoder结构在语音识别中的应用,特别是如何通过Attention机制改进传统方法,解决输入序列过长带来的问题。2014年的研究开始将这种结构用于翻译,随后被引入到电话和大型词汇语音识别中,显著提升了性能,尤其是在无需外部语言模型的情况下。
摘要由CSDN通过智能技术生成
                       

History

encoder-decoder

2014年Kyunghyun Cho[1]提出了RNN Encoder-Decoder的网络结构,主要用在翻译上面。
encoder将变长的输入序列映射到一个固定长度的向量,decoder将该向量进一步映射到另外一个变长的输出序列,网络结构如下图:
这里写图片描述
encoder:

h t =f(h t1 ,x t ) h⟨t⟩=f(h⟨t−1⟩,xt)

speech recognition

[5][6]主要将attention和encoder-decoder的网络用在了phone的识别上面,2016年Dzmitry Bahdanau[7]进一步将其应用到LVCSR,输出为character,然后结合语言模型进行解码。文中提出了pooling的方法为了解决输入长度过长带来的计算复杂的问题。
这里写图片描述
在不使用外部语言模型的情况下,比ctc方法性能有较大提升,主要得益于encoder-decoder的框架隐式的学习character之间的关系,而CTC当前时刻的输出跟上一时刻的输出是独立的,因此无法刻画输出character之间的关系
[8]和[7]类似,也是输出到character,使用了pooling的思想使用了pyramid BLSTM网络结构来来解决输入序列过长训练困难的问题。

Reference

[1]. Cho, K., van Merrienboer, B., Gulcehre, C., Bougares, F., Schwenk, H., and Bengio, Y. (2014a). Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Proceedings of the Empiricial Methods in Natural Language Processing (EMNLP 2014).
[2].Sutskever, I., Vinyals, O., and Le, Q. (2014). Sequence to sequence learning with neural networks. In Advances in Neural Information Processing Systems (NIPS 2014).
[3].Graves, A. (2013). Generating sequences with recurrent neural networks. arXiv:1308.0850 [cs].
[4].D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” in ICLR, 2015.
[5].Jan Chorowski, Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. End-to-end continuous speech recognition using attention-based recurrent NN: First results. arXiv:1412.1602 [cs, stat], December 2014.
[6].Chorowski, Jan K, Bahdanau, Dzmitry, Serdyuk, Dmitriy, Cho, Kyunghyun, and Bengio, Yoshua. Attention-based models for speech recognition. In Advances in Neural Information Processing Systems, pp. 577–585, 2015.
[7].D. Bahdanau, J. Chorowski, D. Serdyuk, P. Brakel, and Y. Bengio. End-to-end attention-based large vocabulary speech recognition. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4945–4949, March 2016. doi: 10.1109/ICASSP.2016.7472618.
[8].William Chan, Navdeep Jaitly, Quoc V Le, and Oriol Vinyals. Listen, attend and spell. arXiv preprint arXiv:1508.01211, 2015.

           
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值