在发音过程中,因为协同发音的影响,同一个音素在不同的位置,其发音变化很大,如下图所示:
同样的元音[eh]在不同的单词中的发音在频域上区分非常明显。
因为单音素monophone 是上下文独立的(context-independent)
为了能够表示这种区别,因此提出了triphone的概念,triphone是根据左右音素来确定的,因此是上下文相关的(context-dependent)
上图中:W对应的是词组;Q对应的是monophone;L对应的就是triphone;P对应聚类或者状态绑定之后的triphone
接下来本文就要讨论triphone聚类/状态绑定的过程。
聚类过程有2中,一种是居于数据驱动的聚类过程,第二种是基于决策树的聚类过程,首先讨论基于数据的过程