语音识别存在的问题_语音识别实际问题：（六）说话人自适应

最新推荐文章于 2022-12-25 12:59:21 发布

采璇

最新推荐文章于 2022-12-25 12:59:21 发布

阅读量3.1k

点赞数

文章标签：语音识别存在的问题

本文链接：https://blog.csdn.net/weixin_33606346/article/details/113451217

版权

本文介绍了说话人自适应技术在语音识别中的重要性，包括特征域自适应如声道长度规整（VTLN）和声学模型自适应，如HMM-GMM和DNN系统的自适应方法。说话人自适应旨在通过调整模型以适应不同说话人的发音特性，提升语音识别的准确性。VTLN通过形变因子调整频谱，而HMM-GMM和DNN模型的自适应则涉及参数更新和条件学习。在DNN模型中，基于说话人向量的条件学习（如i-vector方法）成为一种有效策略。

摘要由CSDN通过智能技术生成

6.1 什么是说话人自适应

故事发生在2018年10月，一位印度学者来实验室访问，做了一场关于“如何检测假冒说话人”的报告。这位仁兄讲得神采飞扬，底下的学生们却面面相觑，一头雾水。原因倒不是讲座的内容有多么高深，而是这位的英语实在太有特色了，标准高清孟买腔，且娴熟轻快，对我们这种习惯了English或是Chinglish的听众来说，实在是反应不过来。

人尚如此，遑论机器。

研究者很早就知道，不同说话人的生理结构不同，可能造成非常大的发音差异性。因此，训练一个适合多说话人的语音识别系统(通常称为说话人无关系统)要比训练一个只给一个人用的系统(通常称为说话人相关系统)要困难得多。所以，早期的语音识别系统几乎都是说话人相关的，直到80年代以后，随着数据的积累和建模技术的改进(特别是统计模型的广泛应用)，说话人无关的识别系统才开始普及。然而，说话人之间的差异总是存在的，一个对所有人“通用”的系统总不如一个对个人“定制”的系统更有效。我们当然希望识别系统可以对所有人都有不错的效果，但更重要的是对一些特定人(如我自己，或前面那位印度学者)识别的更好。这就要用到说话人自适应(Speaker Adaptation)技术。

说话人自适应技术的基本思路很简单：给定一个说话人无关的识别系统，基于某一目标说话人的若干数据，通过对该识别系统的某些部分进行合理调节，使得调节后的系统对目标说话人的性能更好。这里的“数据”既可以是语音数据，也可以是文本数据；要调整的部分既可以是声学特征提取，也可以是声学模型或语言模型。在绝大多数情况下，说话人自适应指的是对说话人声学特性的适应，因此主要是对特征提取和声学模型的修正和调节。关于对说话人在用词、造句等方面的语言特性，一般不认为是个人的特异性，而是和说话人所处的应用场景相关，因此通常称为领域自适应(Domain Adaptation)。关于说话人自适应和领域自适应的更多知识，可参考相关的综述文章[1]。

6.2 特征域自适应与声道长度规整

对说话人进行自适应的一个简单思路是对他们发出的声音进行调整，以适应说话人无关的通用系统。这种依说话人特性对语音信号进行调节的方式称为特征域自适应。声道长度规整(Vocal Tract Length Normalization, VTLN)[2]是一种典型的特征域自适应方法。

VTLN的基本思路来源于人类的发音机理。研究者发现，人们在发音时，声音的特性和声道的长短有很大关系，这一关系可形式化为在频谱上的形变。例如，对同样一句话，声道长度不同的两个人得到的频谱有明显区别，而这一区别可通过将频谱在频率上进行压缩或拉伸来模拟。因此，如果我们设定一个标准声道长度，则其它声道长度的频谱即可通过一个形变因子a归整到该标准频谱上来。这一技术称为声道长度规整(VTLN)，形式化如下：

S^α(ω) = S(αω)

其中S(ω)为该发音人的原始频谱，S^α(ω) 为归整后的频谱。在实际系统中，一般采用分段线性映射函数来实现非线性规整，不同频段有不同的α，如图6.1所示。

VTLN需要估计每个说话人的形变因子α。通常的作法是基于一段该说话人的语音，尝试不同的α取值，找到一个最优取值使得依该值对语音进行归整后在参考模型下概率最大化。由于形变因子是应用在频域上的，对以MFCC为特征的系统来说，需要多次生成特征。线性VTLN可以在特征域上对不同形变因子设计线性映射，可免除重复生成特征的麻烦[3]。

图 6.1: 分段线性VTLN函数。横轴为原始频率，纵轴为变换后的频率。中间虚线代表参考声道长度(a=1)下的映射，上下两条实线分别代表不同形变因子对应的映射函数。

VTLN具有明确的物理意义，实现简单，在语音识别中得到广泛应用。然而，一些研究也发现VTLN事实上可以通过特征上线性变换进行补偿，因此VTLN 在一些实际系统中的作用可能并不明显[4]。关于特征上的线性变换，我们将在下节介绍。

Kaldi中包含了VTLN的计算方法，如图6.2所示。同时，Kaldi wsj recipe中也提供了VTLN可选操作(缺省是关闭的)，如图6.3所示。

图 6.2: Kaldi中src/feat/mel-computations.cc中实现的VTLN代码

图 6.3: Kaldi中wsj recipe下的VTLN步骤

6.3 声学模型自适应：HMM-GMM系统

在HMM时代，典型的声学模型是HMM-GMM架构，如图6.4所示，其中HMM (隐马尔可夫模型)用来描述信号动态特性(即语音信号相邻帧间的相关性)，GMM(高斯混合模型)用来描述HMM每个状态的静态特性(即HMM每个状态下语音帧的分布规律)。HMM-GMM 模型的一个特点是结构简单，参数的物理意义直观明了。因此，只需要对那些与说话人特性相关的参数进行适当调整，即可实现对模型的快速自适应。

研究表明，HMM模型对说话人特性的表征并不明显，因此绝大多数自适