声学模型基本单元
常用的声学模型基本单元是单词(Word)、上下文无关音素(Monophone)、上下文相关音素(Triphone,Biphone)和音节(Syllable)。Monophone 模型具有模型简单、状态数较少、识别速度刽、内存占用少且与识别词汇量无关等优点,但其对发音的相关性描述不够精确,一选识别率不搞。Triphone和Syllable模型对发音相关性能准确建模,但模型数量巨大、状态数较多、识别速度慢、内存占用多。
音素(phone):语音的自然属性划分出来的最小语音单位。(可以理解为图像中的像素)。音素分为元音与辅音两大类。如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。
注:
音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,考虑前一音的影响的称为Bi-Phone,考虑前一音和后一音的影响的称为 Tri-Phone。
音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素,称为senone。
音节(syllables):由音素构成。音节是一个比较稳定的实体,因为当语音变得比较快的时候,音素往往会发生改变,但是音节却不变。
注:
中文中一般一个汉字是一个音节。
英文中用元音字母区分音节。
单词单元(音节)构成单词。单词在语音识别中很重要,因为单词约束了音素的组合。
单词和一些非语言学声音构成了话语(utterances),我们把非语言学声音称为fillers填充物,例如呼吸,um,uh,咳嗽等,它们在音频中是以停顿做分离的。所以它们更多只是语义上面的概念,不算是一个句子。
参考:https://blog.csdn.net/qq_23126625/article/details/88546525