X-Vector 数据增益方法
摘要
在说话人识别中,DNN 投影可变长度的语音段为固定维度的说话人嵌入,被称之为 x-vector。在已有的研究中,x-vector 比 i-vector 能更好地利用大规模地数据集。然而,收集如此大规模数据是非常困难的。D. Snyder 提出了一种高效的数据增益的方法,该方法包含增加噪声和混响的技术,以增加训练数据和改善系统鲁棒性。实验表明:以 SITW 和 SRE16 Cantonese (广东话) 为评测数据集,1)数据增益对 i-vector 提取器无收益,2)数据增益 x-vector (TDNN) 收益显著,3)x-vector 提取器的数据增益的改善效果优于 PLDA 的数据增益,4)VoxCeleb 1 数据集 (除去SITW重叠的说话人) 对 x-vector 改善效果最明显。
方法
论文中提及了三种说话人识别系统:acoustic i-vector、i-vector (BNF) 和 x-vector。
- acoustic i-vector
- 模型:输入 ↦ \mapsto ↦ UBM ↦ \mapsto ↦ T ↦ \mapsto ↦ PLDA
- 输入:共 60 维度,帧长 25 ms 的均值归一化 20 MFCC + Δ \Delta Δ + Δ Δ \Delta\Delta ΔΔ,在此基础上,基于能量的语音活动检测(VAD)选择对应语音帧,语音最长 3 s
- UBM:2048 分量全协方差高斯混合模型
- T:提取 600 维 i-vector
- PLDA:用于得分计算,具体过程为:中心化 ↦ \mapsto ↦ LDA ↦ \mapsto ↦ L-norm ↦ \mapsto ↦ PLDA ↦ \mapsto ↦ 自适应 s-norm,其中 LDA 采用 SITW 的开发数据进行训练,将 i-vector 降为 200 维度,将 x-vector 降维 150 维度
- i-vector
- 模型:与 acoustic i-vector 相同,但输入不同
- 输入:共 100 维度,60 维语音瓶颈特征 (BNF) + 与 acoustic i-vector 相同的 MFCC 与 Δ \Delta Δ,进行与 acoustic i-vector 相同的特征处理
- X-vector
- 模型:输入 ↦ \mapsto ↦ TDNN ↦ \mapsto ↦ PLDA
- 输入:共 24 维度,帧长 25 ms 的均值归一化 24 滤波器组,在此基础上,基于能量的语音活动检测(VAD)过滤非语音帧,语音最长 3 s
- TDNN:一种特殊结构的卷积神经网络,见参考文献,激活参数都采用 ReLU,temporal pooling layer 之后的第一层 segment6,非线性化之前,作为说话人嵌入
- PLDA:与 acoustic i-vector 相同
数据集
训练数据集由电话语音和麦克风语音组成,大部分是英语,都采用 8kHz 采样。语料包含 4 类:
- SWBD:包含 Switchboard 2 Phases 1, 2, 3 与 Switchboard Cellular,约 28,000 记录,2,600 人
- SRE:包含 SRE04-10 与 Mixer 6,约 63,000 记录,4,400 人。
- VoxCeleb:除去与 SITW 重叠的 60 人,约 20,000 记录,1,191 人。
- Fisher English
这四个语料用于训练上述的模型,
模型/语料 | SWBD | SRE | VoxCeleb | Fisher English |
---|---|---|---|---|
UBM/T | Yes | Yes | Add in "Including VoxCeleb" setting | |
TDNN | Yes | Yes | Add in "Including VoxCeleb" setting | |
PLDA | Yes | Add in "Including VoxCeleb" setting | ||
BNF | Yes |
数据增益系统及其结论
数据增益能够增加数据的丰富性,采用加噪声和加混响的方式来实现该过程,具体地说,1 份干净的数据 + 2 份增益的副本。语料分别采用 RIRs 与 MUSAN,实现方法是在原有的语音段上随机选择一种增益方式,可选的增益方法为:babble、music、noise、reverb。
数据增益方法的基础上,评估以下五种系统性能(提取器是 UBM/T 和 TDNN 嵌入的统称,即 i-vector 和 x-vector 的统称):
系统 | 模型 | SITW core | SRE16 Cantonese |
---|---|---|---|
原始系统 | i-vector (acoustic) | 9.29 | 9.23 |
i-vector (BNF) | 9.10 | 9.68 | |
x-vector | 9.40 | 8.00 | |
PLDA增益 | i-vector (acoustic) | 8.64 | 8.92 |
i-vector (BNF) | 8.00 | 8.82 | |
x-vector | 7.56 | 7.45 | |
提取器增益 | i-vector (acoustic) | 8.89 | 9.20 |
i-vector (BNF) | 7.27 | 8.89 | |
x-vector | 7.19 | 6.29 | |
PLDA与提取器增益 | i-vector (acoustic) | 8.04 | 8.95 |
i-vector (BNF) | 6.49 | 8.29 | |
x-vector | 6.00 | 5.86 | |
Including VoxCeleb | i-vector (acoustic) | 7.45 | 9.23 |
i-vector (BNF) | 6.09 | 8.12 | |
x-vector | 4.16 | 5.71 |
结论:
- 原始系统:BNF在英语语音上的收益不一定能转化到非语音语音上。
- PLDA 增益:x-vector收益最明显。
- 提取器增益:i-vector的收益不一致;DNN训练的收益明显,且比PLDA增益更明显。
- PLDA与提取器增益:x-vector整体最优。
- Including VoxCeleb:测试加入大规模麦克风语音的效果,VoxCeleb相对于SITW属于同领域数据(in-domain),通过检测错误折中曲线(DET)看整体(不同错误报警概率和误检测概率)的效果,x-vector 在大规模域内数据集上的收益最为明显。
参考文献
[1] Snyder D, Garcia-Romero D, Sell G et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)[C]. 2018: 5329–5333.
[2] D. Sturim and D. Reynolds, “Speaker adaptive cohort selection for tnorm in text-independent speaker verification,” in Acoustics, Speech, and Signal Processing, 2005. Proceedings.(ICASSP’05). IEEE International Conference on. IEEE, 2005, vol. 1, pp. I–741.
[3] Snyder D, Garcia-Romero D, Povey D, et al. Deep Neural Network Embeddings for Text-Independent Speaker Verification. 18th Annual Conference of the International Speech Communication Association[C]. 2017: 999–1003.
作者信息:
CSDN:https://blog.csdn.net/i_love_home?viewmode=contents
Github:https://github.com/mechanicalsea
2019级同济大学博士研究生 王瑞 rwang@tongji.edu.cn
研究方向:说话人识别、说话人分离