从零开始语音识别算法--(1)基本概念

学习目标

希望从语音识别开始深入,最后可以开发一个个性化语音合成的系统。这样就可以随时随地可以听你想听到的人说话啦。

语音识别的总体思路

语音基本单位:帧(Frame)

HMM模型:
在这里插入图片描述
初始状态概率(P(w1))和状态转移概率(P(w2 |w1)、P(w2 |w2))可以用常规的统计
方法从样本中计算出来,主要的难点在于发射概率(P(x1 |w1)、P(x2 |w2)、P(x3 |w2))的计算,所以声学模型问题进一步细化到发射概率(Emission Probability) 的学习上,可以通过生成式模型(GMM)或判别式模型(DNN)求解。

GMM:生成模型,着重刻画数据的内在分布,可以直接求解P(x|s),称之为似然概率。
DNN:求解P(s|x),称之为后验概率。
作为生成式模型的 GMM 擅长捕捉已知数据中的内在关系,能够很好地刻画数据的分布,打出的标签具有较高的可信度,但对于未知数据的分类,判别式模型的 DNN 有着更强的泛化能力。通俗点来说,GMM 善于就已有资源进行最大化的开发(Exploitation),而DNN 擅长举一反三,具有探索精神(Exploration)。

End-to-End思想:直接通过一个模型来训练出一个端到端的语音到文本的生成,此方法首要解决的问题是输入与输出不定长的问题。
对于输入:可以采用CNN或RNN
对于输出:可以采用CTC损失函数和注意力模型
两个主流的端到端方法:基于CTC损失函数和注意力网络结构的深度学习方法

语音识别的工具

广泛使用的语音识别开源工具有 CMUSphinx、HTK、Kaldi。
语音识别系统的流程:
前端语音信号处理 -》声学模型、语言模型训练-》后端解码,深度学习方法较多地应用于声学模型和语言模型

声学模型

  • 统计声学模型
    在这里插入图片描述
  • 端到端声学模型
    在这里插入图片描述
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值