跨信道文本无关说话人识别的信道对抗训练

最新推荐文章于 2023-11-13 09:32:46 发布

海上机械师

最新推荐文章于 2023-11-13 09:32:46 发布

阅读量1.7k

点赞数 1

分类专栏：说话人识别文章标签：深度学习说话人识别卷积神经网络跨信道科大讯飞

本文链接：https://blog.csdn.net/i_love_home/article/details/105373991

版权

跨信道文本无关说话人识别的信道对抗训练

文献：X. Fang, L. Zou, J. Li, L. Sun, and Z. Ling, “Channel Adversarial Training for Cross-channel Text-independent Speaker Recognition,” in Proceedings of 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6221–6225, doi: 10.1109/ICASSP.2019.8682327.

大学：中科科学院大学

公司：科大讯飞

摘要

目的：研究跨信道的文本无关说话人识别，换句话说，channel-mismatched speaker recognition。
数据与方法：提出了信道对抗训练的方法，CAT，一种领域对抗训练。语料包含 2 个训练集、1 个验证集和 1 个评估数据，涉及两种信道，即 Speex 与 SILK 软件，测试数据的人数超过 5 万。
结果：相比较 CNN 方法，CAT 提升了 22.6 % Top 1 召回率；CAT 在 Top 10 召回率上高达 85 %。
结论：领域判别子网络为 CAT 在超大规模说话人数量的实验中贡献显著的性能提升效果。

1. 引言

在智能手机和移动设备的流行趋势下，说话人识别（或声纹识别）因其非接触与价格低的优势越来越受关注。由于私人语音存储设备与传输协议存在差异，使得跨信道的说话人识别变得重要。

信道不同，可以理解为不同语音编解码器（speech codecs）或者软件。不同信道造成说话人识别的信道不匹配问题，严重损害了识别性能。

以往基于 i-vector 与基于 CNN 的信道补偿技术仍然无法解决跨信道的说话人嵌入学习问题。于是，X. Fang 提出了一种基于 CNN 的领域对抗训练方法，CAT，来学习信道不变的、说话人可区分的语音表示（channel-invariant and speaker-discriminative speech representations）。

从结构上看，CAT 比 CNN 模型增加了基于全链接层的信道判别器子网络和基于 LSTM 的生成器子网络。

2. Channel Adversarial Training (CAT) 方法

CAT 采用上图的网络结构，主要包含 1 个生成器子网络 G、1 个说话人分类判别器子网络 D1 和 1 个信道判别子网络 D2：

生成器子网络 G：双层 LSTM 串联结构，参数 $\theta_G$
说话人分类判别器子网络 D1：五层卷积层 + 平均池化层 + 全链接层，参数 $\theta_{D1}$
（跨/双）信道判别器子网络 D2：梯度反向层(gradient reversal layer) + 六层全链接层 + 平均池化层，参数 $\theta_{D2}$

CAT 以最小化说话人标签预测损失和最大化信道分类损失为目标，分别优化说话人分类判别器和信道判别器，其损失函数分别为：

D1 损失函数：

$\begin{aligned} L_{D1}(\theta_G,\theta_{D1}) &= L_S+\alpha L_T \\ &= \underbrace{-\sum\limits_{i=1}^M\log{\frac{\exp(W_{y_i}^Tx^i+b_{y_i})}{\sum_{j=1}^N\exp(W_j^Tx^i+b_j)}}}_\text{softmax} + \alpha\underbrace{\sum\limits_{i=1}^M\max\left(0,\cos\left(x^i,x^n\right)+\delta-\cos\left(x^i,x^p\right)\right)}_\text{triplet} \end{aligned}$