本文主要观点来自于 google论文。
Towards End-to-EndSpeech RecognitionUsing Deep Neural Networks。
问题背景:
传统语音识别系统需要经过提特征,声学建模(state-phoneme-triphone),语言建模系列过程,其中声学建模需要对上下文相关的音素模型进行状态聚类,对每一帧特征需要做对齐。
端到端系统主要提出了下面的问题:
1. 特征表示:
神经网络既然可以用来做特征学习,是否可以直接从原始音频信号中直接提取特征,不需要手工的提取log-mel特征?
2. 声学建模:
DNN,CNN 和 LSTM通常用来进行声学建模,通过结合这些结构是否可以更好建模?
3. 是否可以减少对现有CD-state(通过HMM训练和聚类得到)和aligment的依赖?例如利用CTC