architecture 声学信号使用HMM框架建模,每个状态的生成概率使用DNN替换原来的GMM进行估计,DNN每个单元的输出表示状态的后验概率。 decoding 实际的语音识别解码的时候使用的是似然概率: