跨信道文本无关说话人识别的信道对抗训练

跨信道文本无关说话人识别的信道对抗训练

文献:X. Fang, L. Zou, J. Li, L. Sun, and Z. Ling, “Channel Adversarial Training for Cross-channel Text-independent Speaker Recognition,” in Proceedings of 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 6221–6225, doi: 10.1109/ICASSP.2019.8682327.

大学:中科科学院大学

公司:科大讯飞

摘要

目的:研究跨信道的文本无关说话人识别,换句话说,channel-mismatched speaker recognition。
数据与方法:提出了信道对抗训练的方法,CAT,一种领域对抗训练。语料包含 2 个训练集、1 个验证集和 1 个评估数据,涉及两种信道,即 Speex 与 SILK 软件,测试数据的人数超过 5 万。
结果:相比较 CNN 方法,CAT 提升了 22.6 % Top 1 召回率;CAT 在 Top 10 召回率上高达 85 %。
结论:领域判别子网络为 CAT 在超大规模说话人数量的实验中贡献显著的性能提升效果。

1. 引言

在智能手机和移动设备的流行趋势下,说话人识别(或声纹识别)因其非接触与价格低的优势越来越受关注。由于私人语音存储设备与传输协议存在差异,使得跨信道的说话人识别变得重要。

信道不同,可以理解为不同语音编解码器(speech codecs)或者软件。不同信道造成说话人识别的信道不匹配问题,严重损害了识别性能。

以往基于 i-vector 与基于 CNN 的信道补偿技术仍然无法解决跨信道的说话人嵌入学习问题。于是,X. Fang 提出了一种基于 CNN 的领域对抗训练方法,CAT,来学习信道不变的、说话人可区分的语音表示(channel-invariant and speaker-discriminative speech representations)。

从结构上看,CAT 比 CNN 模型增加了基于全链接层的信道判别器子网络和基于 LSTM 的生成器子网络。

2. Channel Adversarial Training (CAT) 方法

信道判别子网络 D2
说话人分类子网络 D1
梯度反向层
6 x 全链接层
平均池化
Softmax
5 x 卷积层
平均池化
全连接层
Softmax loss + Triplet loss
谱特征输入 batch_size x 500 x 64
2 x LSTM层 G

CAT 采用上图的网络结构,主要包含 1 个生成器子网络 G、1 个说话人分类判别器子网络 D1 和 1 个信道判别子网络 D2:

  • 生成器子网络 G:双层 LSTM 串联结构,参数 θ G \theta_G θG
  • 说话人分类判别器子网络 D1:五层卷积层 + 平均池化层 + 全链接层,参数 θ D 1 \theta_{D1} θD1
  • (跨/双)信道判别器子网络 D2:梯度反向层(gradient reversal layer) + 六层全链接层 + 平均池化层,参数 θ D 2 \theta_{D2} θD2

CAT 以最小化说话人标签预测损失和最大化信道分类损失为目标,分别优化说话人分类判别器和信道判别器,其损失函数分别为:

  • D1 损失函数:

    L D 1 ( θ G , θ D 1 ) = L S + α L T = − ∑ i = 1 M log ⁡ exp ⁡ ( W y i T x i + b y i ) ∑ j = 1 N exp ⁡ ( W j T x i + b j ) ⏟ softmax + α ∑ i = 1 M max ⁡ ( 0 , cos ⁡ ( x i , x n ) + δ − cos ⁡ ( x i , x p ) ) ⏟ triplet \begin{aligned} L_{D1}(\theta_G,\theta_{D1}) &= L_S+\alpha L_T \\ &= \underbrace{-\sum\limits_{i=1}^M\log{\frac{\exp(W_{y_i}^Tx^i+b_{y_i})}{\sum_{j=1}^N\exp(W_j^Tx^i+b_j)}}}_\text{softmax} + \alpha\underbrace{\sum\limits_{i=1}^M\max\left(0,\cos\left(x^i,x^n\right)+\delta-\cos\left(x^i,x^p\right)\right)}_\text{triplet} \end{aligned}

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值