#深入理解# DNN+HMM 语音识别模型

31 篇文章 3 订阅
23 篇文章 11 订阅
本文深入探讨了DNN在语音识别中的两种应用:Tandem方法,通过预训练DNN提升特征表达能力;以及直接用DNN替换GMM,用于记录发射概率。在DNN学习过程中,需先利用GMM+HMM获取有监督的标签数据。
摘要由CSDN通过智能技术生成

#透彻理解# GMM+HMM 语音识别模型过程

上一篇文章详细解析了 GMM+HMM语音识别模型,在这篇文章中,我们将重点介绍DNN+HMM语音识别模型

将DNN应用在语音识别有两种方式:

1. Tandem

Tandem的方法类似 word embedding,首先训练一个DNN,然后使用DNN对特征帧序列进行加工,使输入GMM+HMM的特征能够更好的表达语音信息的特征;在识别时可以只提取DNN的瓶颈层输出(bottleneck layer);DNN可以换成LSTM、CNN等网络,原理上是相同的。

2. 令DNN取代GMM+HMM中的GMM

  1. 训练一个GMM+HMM的语音识别模型,得到转移概率A,发射概率矩阵B、初始状态概率矩阵π,
  2. 根据上一步训练得到的GMM+HMM模型使用Viterbi算法得到每个特征帧被识别到每个状态的概率分布,将特征帧作为DNN的输入,将概率分布作为DNN要预测的标签,训练DNN网络(多分类问题,DNN输出数=状态数)
  3. 用训练完的DNN取代GMM+HMM中的GMM进行识别(用DNN记录发射概率B的信息),转移矩阵A、初始状态概率矩阵π仍然来自HMM

注意:因为DNN的学习过程是有监督学习,因此需要得到每个输入对应的标签,因此需要先训练一个GMM+HMM网络,以此得到每个特征帧对应被识别成不同状态的概率分布

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

energy_百分百

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值