语音识别基本概念 II

声学模型基本单元

常用的声学模型基本单元是单词(Word)、上下文无关音素(Monophone)、上下文相关音素(Triphone,Biphone)和音节(Syllable)。Monophone 模型具有模型简单、状态数较少、识别速度刽、内存占用少且与识别词汇量无关等优点,但其对发音的相关性描述不够精确,一选识别率不搞。Triphone和Syllable模型对发音相关性能准确建模,但模型数量巨大、状态数较多、识别速度慢、内存占用多。

 

音素(phone):语音的自然属性划分出来的最小语音单位。(可以理解为图像中的像素)。音素分为元音与辅音两大类。如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。

注:

音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,考虑前一音的影响的称为Bi-Phone,考虑前一音和后一音的影响的称为 Tri-Phone。
音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素,称为senone
音节(syllables):由音素构成。音节是一个比较稳定的实体,因为当语音变得比较快的时候,音素往往会发生改变,但是音节却不变。

注:

中文中一般一个汉字是一个音节。
英文中用元音字母区分音节。
单词单元(音节)构成单词。单词在语音识别中很重要,因为单词约束了音素的组合。

单词和一些非语言学声音构成了话语(utterances),我们把非语言学声音称为fillers填充物,例如呼吸,um,uh,咳嗽等,它们在音频中是以停顿做分离的。所以它们更多只是语义上面的概念,不算是一个句子。
 

参考:https://blog.csdn.net/qq_23126625/article/details/88546525

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值