知名声纹技术厂商快商通的AI研发中心总监、快商通声纹研发团队的核心成员李稀敏博士在一次专访中阐述过声纹识别技术的发展过程,其将声纹声纹识别技术的发展总结为3个分水岭
第一个分水岭是2000年。在2000年以前,进行声纹识别验证,主要是基于模板匹配,这种算法基于信号比对,通常要求比对双方的内容相同,比如要验证说“床前明月光”的人是谁,那验证人也必须要说“床前明月光”才能验证,如果他说“疑似地上霜”的话,验证就不能完成。2000年以后,开始出现基于高斯混合模型的声纹识别算法,高斯混合模型是典型基于统计学习理论的方法,该算法采用大量数据为每个说话人训练模型,使用高斯混合模型验证已经与文本无关了,即要验证“床前明月光”的说话人时,说“疑似地上霜”也能够验证成功。之后产生的许多主流研究方法都是在高斯混合模型的基础上改进的,但高斯混合模型注册语音的时间过长,无法满足实际应用场景的需求,因此需要新的技术来突破限制。
第二个分水岭是2010年左右,这时候出现了iVector/PLDA算法。iVector最大的亮点在于,把语音映射到了一个固定的且低维的向量上,这意味这所有机器学习的算法都可以用来解决声纹识别的问题了,因此这是一个巨大的进步。PLDA是一种信道补偿算法,因为在iVector中,既包含说话人的信息,也包含信道信息,而我们只关心说话人的信息,所以才做信道补偿,目前PLDA是最好的信道补偿算法,但噪声对结果依然有很大的影响。
第三分水岭是在2011年,在第十一届全国人机语音通讯学术会议上,邓力分享了他在微软DNN-based speech recognition的研究结果,将识别率提升了30%,这将声纹识别的准确率一下子提升了一个层次。DNN能从大量样本中学习到高度抽象的说话人特征,并对噪声有很强的免疫力,至此深度学习被引入业界,国内对声纹识别技术的关注点也放到了深度学习上。