Utterance-Wise Recurrent Dropout And Iterative Speaker Adaptation For Robust Monaural Speech Recogni...

单声道语音识别的逐句循环Dropout迭代说话人自适应

   

WRBNwide residual BLSTM network,宽残差双向长短时记忆网络)

[2] J. Heymann, L. Drude, and R. Haeb-Umbach, "Wide residual blstm network with discriminative speaker adaptation for robust speech recognition," submitted to the CHiME, vol. 4, 2016.

reverberationn. [] 混响;反射;反响;回响

   

CLDNNconvolutional, long short-term memory, fully connected deep neural networks,卷积-长短时记忆-全连接深度神经网络)

[1] T.N. Sainath, O. Vinyals, A. Senior, and H. Sak, "Convolutional, long short-term memory, fully connected deep neural networks," in Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015, pp. 45804584.

   

speech separation,语音分离,将多说话人同时说话的语句分离为各个说话人独立说话的语句。

   

LSTM训练中使用Dropout能有效缓解过拟合。

[3] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov, "Improving neural networks by preventing co-adaptation of feature detectors," arXiv preprint arXiv:1207.0580, 2012.

   

在输出门、遗忘门以及输入门使用基于语句采样丢帧Mask能取得最优结果(Cheng dropout)。

[7] G. Cheng, V. Peddinti, D. Povey, V. Manohar, S. Khudanpur, and Y. Yan, "An exploration of dropout with lstms," in Proceedings of Interspeech, 2017.

   

基于MLLR的迭代自适应方法,使用上一次迭代的解码结果来更新高斯参数。

[10] P.C. Woodland, D. Pye, and M.J.F. Gales, "Iterative unsupervised adaptation using maximum likelihood linear regression," inSpokenLanguage, 1996.ICSLP96.Proceedings., Fourth International Conference on. IEEE, 1996, vol. 2, pp. 1133–1136.

   

   

近期提出了一种batch正则化说话人自适应。

[14] P. Swietojanski, J. Li, and S. Renals, "Learning hidden unit contributions for unsupervised acoustic model adaptation," IEEE/ACMTransactionsonAudio,Speech, and Language Processing, vol. 24, no. 8, pp. 1450– 1463, 2016.

   

本文使用了无监督的LIN说话人自适应

[11]

使用的LIN层矩阵维数为80*80,该层被三个输入特征共享(原始、deltadelta-delta)。

   

本文尝试使用以下两种方式进行迭代的说话人自适应:

  • 在迭代时使用上一次迭代的模型生成新标签进行训练。
  • 每次迭代堆叠一个额外的线性输入层(数学上,多个线性层相当于一个隐层)

   

传统DNN训练方式是segment-wise

   

实验得出,使用RNN时,Iter(迭代方案)更优;使用tri-gram时,Stack(堆叠)方案更优

转载于:https://www.cnblogs.com/JarvanWang/p/9152671.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
如果`window.speechSynthesis`有时无法播放文本,可能是由于以下原因: 1. 浏览器不支持Web Speech API:请确保您的浏览器支持Web Speech API。Web Speech API在某些旧版本的浏览器中可能不可用。您可以在浏览器控制台中检查是否有任何错误消息来确定问题的原因。 2. 合成语音数据未加载:有时浏览器可能需要更多时间来加载合成语音数据。您可以尝试等待片刻或尝试在`onvoiceschanged`事件中更新可用的语音。例如: ```javascript const synth = window.speechSynthesis; let voices = []; synth.onvoiceschanged = () => { voices = synth.getVoices(); } const utterance = new SpeechSynthesisUtterance(this.text); utterance.voice = voices[0]; // 设置第一个可用的语音 synth.speak(utterance); ``` 3. 某些语音不可用:某些语音可能不可用或需要下载。您可以使用`synth.getVoices()`方法检查可用的语音,并选择一个可用的语音。例如: ```javascript const synth = window.speechSynthesis; let voices = []; synth.onvoiceschanged = () => { voices = synth.getVoices(); } const utterance = new SpeechSynthesisUtterance(this.text); const voice = voices.find(v => v.lang === 'en-US'); // 查找英语语音 utterance.voice = voice; synth.speak(utterance); ``` 4. 播放速率过快或过慢:有时语音播放速度可能会影响语音的可听性。您可以尝试调整播放速率。例如: ```javascript const synth = window.speechSynthesis; const utterance = new SpeechSynthesisUtterance(this.text); utterance.rate = 0.8; // 设置播放速率为0.8倍 synth.speak(utterance); ``` 希望这些提示可以帮助您解决问题。如果问题仍然存在,请提供更多详细信息,以便我更好地帮助您。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值