节目中的比赛规则是这样的:从21位性别相同、年龄相仿、声线极为相似的专业合唱团中,选出三位每个人读一句话,加密后成为断断续续的声音样本再交给小度和人类选手,要求他们从合唱声音中识别出三名线人的声音。(什么加密什么样本,你说慢点好不好)简单说就是根据声音片段从21个人中挑选出对应的人。那个结果是,小度与一名很有听力天赋的少年打成平手,但是已经超过了我们一般人的水平。
下面就让我们一起唠唠说话人识别。
首先背一下书本上面的概念,语音具有特殊性和稳定性。特殊性在于,每个人都具有属于自己的一套发声器官,它们的形态构造千差万别,声音的产生需要多个器官的相互配合,引起空气振动。这也决定了不同人的语音的物理属性(音质、音长、音高、音强)是不同的。不同的人具有不同的声音特征,在语音图谱上表现为参数上的差异,我们可以根据特征参数,确定是否是同一个人。稳定性在于,当一个人发音器官发育成熟之后,其解剖结构和生理状态是稳定不变的,加之发音人的言语习惯等语音的社会心理属性,使得不同人在不同的时段内所说的相同文本内容的话,基本语音特征是稳定不变的。很喜欢某网友举的例子,管乐中包括很多种号,长号、短号、圆号等由于声道长短形状差异,吹出来的音色也是不一样的。
鉴于语音的特殊性和稳定性,我们可以将语音作为特征来区分说话人。声纹识别本质上是一个模式识别问题,解决这个问题最经典的方法就是GMM-UBM了。
其中GMM是大家都熟悉的高斯混合模型,而UBM是通用背景模型(Universal Back-ground Model)。实际中,每一个说话人的语音数据很少,训练不充分,导致对说话人建模的精度不够,因此提出了UBM模型。UBM模型是在大量说话人数据混合