Channel Invariant Speaker Embedding Learning with Joint Multi-Task and Adversarial Training

最新推荐文章于 2021-09-14 15:26:21 发布

java_crocodile

最新推荐文章于 2021-09-14 15:26:21 发布

阅读量146

点赞数

分类专栏：声纹识别

本文链接：https://blog.csdn.net/qq_41048571/article/details/119299292

版权

声纹识别专栏收录该内容

16 篇文章 2 订阅

订阅专栏

phoneme variability : 不同语句发音不同
channel mismatch : 录音设备与环境不同

实现流程

先通过浅层网络学习channel信息，再通过后面的网络将其消除。

baseline: x-vector

结构：
在这里插入图片描述

在进行adversarial training时，使用GRL将梯度方向。

损失函数：
在这里插入图片描述
Lc检测channel是否正确分类

使用AAM-Softmax将说话人正确分类

cosθj = WT j fys

在这里插入图片描述
n代表说话人数量，Wj代表第j列

训练：

Joint Multitask-Adversarial training：
使用Joint Multi-task learning与Adversarial training同时更新参数。Multi-task learning在statistics pooling layer进行，adversarial training在embedding layer进行。

Progressive Multi-task-Adversarial training：
先进行Multi-task learning，之后去掉multi-task learning branch，进行Adversarial training

test阶段采用PLDA进行打分。

实验

AAM-Loss的m从0线性增长到2，momentum为0.9，learning rate为0.0001
environment as channel information：选取2种设备录制的语音，手动标注6种环境。
devices as channel information：总共选取5种设备

environment:
在这里插入图片描述
progressive training 的表现好于joint training。
在progressive中， statistic level multitask training branch只存在于训练早期。
在训练早期，multi-task training可以学习channel的知识，之后再通过adversarial training进行消除。

device:
在这里插入图片描述

结论与environment一致。

java_crocodile

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Channel Invariant Speaker Embedding Learning with Joint Multi-Task and Adversarial Training

phoneme variability : 不同语句发音不同channel mismatch : 录音设备与环境不同实现流程先通过浅层网络学习channel信息，再通过后面的网络将其消除。baseline: x-vector结构：在进行adversarial training时，使用GRL将梯度方向。损失函数：Lc检测channel是否正确分类使用AAM-Softmax将说话人正确分类n代表说话人数量，Wj代表第j列训练：Joint Multitask-Adversari
复制链接

扫一扫

专栏目录