X-Vector 数据增益方法-CSDN博客

本文链接：https://blog.csdn.net/i_love_home/article/details/104758517

X-Vector 数据增益方法

论文：Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.

文章目录

X-Vector 数据增益方法

摘要

在说话人识别中，DNN 投影可变长度的语音段为固定维度的说话人嵌入，被称之为 x-vector。在已有的研究中，x-vector 比 i-vector 能更好地利用大规模地数据集。然而，收集如此大规模数据是非常困难的。D. Snyder 提出了一种高效的数据增益的方法，该方法包含增加噪声和混响的技术，以增加训练数据和改善系统鲁棒性。实验表明：以 SITW 和 SRE16 Cantonese (广东话) 为评测数据集，1）数据增益对 i-vector 提取器无收益，2）数据增益 x-vector (TDNN) 收益显著，3）x-vector 提取器的数据增益的改善效果优于 PLDA 的数据增益，4）VoxCeleb 1 数据集 (除去SITW重叠的说话人) 对 x-vector 改善效果最明显。

方法

论文中提及了三种说话人识别系统：acoustic i-vector、i-vector (BNF) 和 x-vector。

acoustic i-vector
- 模型：输入 $\mapsto$ UBM $\mapsto$ T $\mapsto$ PLDA
- 输入：共 60 维度，帧长 25 ms 的均值归一化 20 MFCC + $\Delta$ + $\Delta\Delta$ ，在此基础上，基于能量的语音活动检测（VAD）选择对应语音帧，语音最长 3 s
- UBM：2048 分量全协方差高斯混合模型
- T：提取 600 维 i-vector
- PLDA：用于得分计算，具体过程为：中心化 $\mapsto$ LDA $\mapsto$ L-norm $\mapsto$ PLDA $\mapsto$ 自适应 s-norm，其中 LDA 采用 SITW 的开发数据进行训练，将 i-vector 降为 200 维度，将 x-vector 降维 150 维度
i-vector
- 模型：与 acoustic i-vector 相同，但输入不同
- 输入：共 100 维度，60 维语音瓶颈特征 (BNF) + 与 acoustic i-vector 相同的 MFCC 与 $\Delta$ ，进行与 acoustic i-vector 相同的特征处理
X-vector
- 模型：输入 $\mapsto$ TDNN $\mapsto$ PLDA
- 输入：共 24 维度，帧长 25 ms 的均值归一化 24 滤波器组，在此基础上，基于能量的语音活动检测（VAD）过滤非语音帧，语音最长 3 s
- TDNN：一种特殊结构的卷积神经网络，见参考文献，激活参数都采用 ReLU，temporal pooling layer 之后的第一层 segment6，非线性化之前，作为说话人嵌入
- PLDA：与 acoustic i-vector 相同

数据集

训练数据集由电话语音和麦克风语音组成，大部分是英语，都采用 8kHz 采样。语料包含 4 类：

SWBD：包含 Switchboard 2 Phases 1, 2, 3 与 Switchboard Cellular，约 28,000 记录，2,600 人
SRE：包含 SRE04-10 与 Mixer 6，约 63,000 记录，4,400 人。
VoxCeleb：除去与 SITW 重叠的 60 人，约 20,000 记录，1,191 人。
Fisher English

这四个语料用于训练上述的模型，

表1. 模型训练的数据集
模型/语料	SWBD	SRE	VoxCeleb	Fisher English
UBM/T	Yes	Yes	Add in "Including VoxCeleb" setting
TDNN	Yes	Yes	Add in "Including VoxCeleb" setting
PLDA		Yes	Add in "Including VoxCeleb" setting
BNF				Yes

数据增益系统及其结论

数据增益能够增加数据的丰富性，采用加噪声和加混响的方式来实现该过程，具体地说，1 份干净的数据 + 2 份增益的副本。语料分别采用 RIRs 与 MUSAN，实现方法是在原有的语音段上随机选择一种增益方式，可选的增益方法为：babble、music、noise、reverb。

数据增益方法的基础上，评估以下五种系统性能（提取器是 UBM/T 和 TDNN 嵌入的统称，即 i-vector 和 x-vector 的统称）：

表2. 各种系统在不同数据增益条件下的等错误率(EER/%)
系统	模型	SITW core	SRE16 Cantonese
原始系统	i-vector (acoustic)	9.29	9.23
	i-vector (BNF)	9.10	9.68
	x-vector	9.40	8.00
PLDA增益	i-vector (acoustic)	8.64	8.92
	i-vector (BNF)	8.00	8.82
	x-vector	7.56	7.45
提取器增益	i-vector (acoustic)	8.89	9.20
	i-vector (BNF)	7.27	8.89
	x-vector	7.19	6.29
PLDA与提取器增益	i-vector (acoustic)	8.04	8.95
	i-vector (BNF)	6.49	8.29
	x-vector	6.00	5.86
Including VoxCeleb	i-vector (acoustic)	7.45	9.23
	i-vector (BNF)	6.09	8.12
	x-vector	4.16	5.71

结论：

原始系统：BNF在英语语音上的收益不一定能转化到非语音语音上。
PLDA 增益：x-vector收益最明显。
提取器增益：i-vector的收益不一致；DNN训练的收益明显，且比PLDA增益更明显。
PLDA与提取器增益：x-vector整体最优。
Including VoxCeleb：测试加入大规模麦克风语音的效果，VoxCeleb相对于SITW属于同领域数据（in-domain），通过检测错误折中曲线（DET）看整体（不同错误报警概率和误检测概率）的效果，x-vector 在大规模域内数据集上的收益最为明显。

参考文献

[1] Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.
[2] D. Sturim and D. Reynolds, “Speaker adaptive cohort selection for tnorm in text-independent speaker verification,” in Acoustics, Speech, and Signal Processing, 2005. Proceedings.(ICASSP’05). IEEE International Conference on. IEEE, 2005, vol. 1, pp. I–741.
[3] Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.

作者信息：

CSDN：https://blog.csdn.net/i_love_home?viewmode=contents

Github：https://github.com/mechanicalsea

2019级同济大学博士研究生王瑞 rwang@tongji.edu.cn

研究方向：说话人识别、说话人分离