自动语音识别(ASR):研究综述【传统语音识别:基于贝叶斯公式,对联合概率P(X|W)·P(W)进行建模(语音识别结果=声学模型×语言模型)】【端到端语音识别:直接对条件概率 P(W|X)进行建模 】

一、传统语音识别基本原理(基于贝叶斯公式)

设一段语音信号经过特征提取得到特征向量序列为 X=[x1, x2, …, xN], 其中 xi 是一帧的特征向量, i=1, 2, …,N, N 为特征向量的数目. 该段语音对应的文本序列设为 W=[w1, w2, …, wM], 其中 wi 为基本组成单元, 如音素、单词、字符, i=1, 2, …, M, M 为文本序列的维度. 从贝叶斯角度, 语音识别的目标就是从所有可能产生特征向量X的文本序列中找到概率最大的W*, 可以用公式表示为式 (1) 优化问题:
在这里插入图片描述
由式(1)可知, 要找到最可能的文本序列必须使两个概率 P(X|W) 和 P(W) 的乘积最大, 其中:

  • P(X|W) 为条件概率, 由声学模型决定;
  • P(W) 为先验概率, 由语言模型决定.

声学模型和语言模型对语音信号的表示越精准, 得到的语音系统效果越准确.

从语音识别系统的构成来讲, 一套完整的语音识别系统包括预处理、特征提取、声学模型、语言模型以及搜索算法等模块,

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值