作者:桂。
时间:2017-05-31 21:14:56
链接:http://www.cnblogs.com/xingshansi/p/6925955.html
前言
VQ(Vector Quantization)是一个常用的压缩技术,本文主要回顾:
1)VQ原理
2)基于VQ的说话人识别(SR,speaker recognition)技术
〇、分类问题
说话人识别其实也是一个分类问题:
说话人识别技术,主要有这几大类方法:
- 模板匹配方法
这类方法比较成熟,主要原理:特征提取、模板训练、匹配。典型的有:动态时间规整DTW,矢量量化VQ等。
DTW利用动态规划的思想,但也有不足:1)过分依赖VAD技术;2)没有充分利用语音的时序动态特性,所以被HMM取代也就容易理解了。
VQ算法是数据压缩的方法。码本简历、码字搜索是两个基本问题,码本简历是从大量信号样本中训练出比较好的码书,码字搜索是找到一个和输入最匹配的码字,该方法简单,对小系统、差别明显的声音较合适。
- 基于统计模型的分类方法
该类方法本质仍是模式识别系统,都需要提取特征,然后训练分类器,最后分类决策,典型框架:
常用的模型有:GMM、HMM、SVM、ANN、DNN或者各种联合模型等。
GMM基本框架&#