Deep Speech笔记

最新推荐文章于 2024-09-14 08:07:34 发布

mishidemudong

最新推荐文章于 2024-09-14 08:07:34 发布

阅读量5k

点赞数 1

分类专栏： NLG_TTS Deep Learning

Deep Learning 同时被 2 个专栏收录

243 篇文章 9 订阅

订阅专栏

NLG_TTS

10 篇文章 2 订阅

订阅专栏

Deep Speech 1

Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G.,Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates,A., et al. (2014a).Deepspeech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567.

网络结构

这里写图片描述
网络输入是context特征，输出是char，训练准则是CTC，解码需要结合ngram语言模型。
共五层，前三层是简单的DNN结构，第四层是双向RNN，第五层的输入是RNN的前向和后向单元，后面跟着softmax分类。

数据集	网络结构
300h switchboard	5隐层，2304节点
2300h SWB+FSH	4个RNN，每个5隐层，2304节点
100000h add noise	6个RNN，每个5隐层，2560节点

训练数据

训练数据进行加噪处理，使用多种短时噪音。
录制语音的时候增加噪声的场景.

训练优化

Data parallelism
训练语料按照长度排序，然后多句并行
Model parallelism
按照时间切分，前半段在GPU1上面计算，负责计算RNN的forward activation；后半段在GPU2上面计算，负责计算RNN的backward activation。在中间时间点交换角色。

Deep Speech 2

D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos et al., “Deep speech 2: End-to-end speech recognition in english and mandarin,” CoRR arXiv:1512.02595, 2015.

相比于Deep Speech，使用HPC技术，将训练时间由几周缩短到几天，尝试了更为复杂的网络结构。