声学模型单元解析-CSDN博客

本文链接：https://blog.csdn.net/u013498583/article/details/102599682

声学模型基本单元

常用的声学模型基本单元是单词（Word）、上下文无关音素（Monophone）、上下文相关音素（Triphone，Biphone）和音节（Syllable）。Monophone 模型具有模型简单、状态数较少、识别速度刽、内存占用少且与识别词汇量无关等优点，但其对发音的相关性描述不够精确，一选识别率不搞。Triphone和Syllable模型对发音相关性能准确建模，但模型数量巨大、状态数较多、识别速度慢、内存占用多。

音素（phone）：语音的自然属性划分出来的最小语音单位。（可以理解为图像中的像素）。音素分为元音与辅音两大类。如汉语音节 ā（啊）只有一个音素，ài（爱）有两个音素，dāi（呆）有三个音素等。

注：

音素的第一部分与在它之前的音素存在关联，中间部分是稳定的部分，而最后一部分则与下一个音素存在关联，考虑前一音的影响的称为Bi-Phone，考虑前一音和后一音的影响的称为 Tri-Phone。
音素会被放在上下文中考虑，这样就形成了三元音素或者多元音素，称为senone。
音节（syllables）:由音素构成。音节是一个比较稳定的实体，因为当语音变得比较快的时候，音素往往会发生改变，但是音节却不变。

注：

中文中一般一个汉字是一个音节。
英文中用元音字母区分音节。
单词单元（音节）构成单词。单词在语音识别中很重要，因为单词约束了音素的组合。

单词和一些非语言学声音构成了话语（utterances），我们把非语言学声音称为fillers填充物，例如呼吸，um，uh，咳嗽等，它们在音频中是以停顿做分离的。所以它们更多只是语义上面的概念，不算是一个句子。

参考：https://blog.csdn.net/qq_23126625/article/details/88546525