Channel Invariant Speaker Embedding Learning with Joint Multi-Task and Adversarial Training

phoneme variability : 不同语句发音不同
channel mismatch : 录音设备与环境不同

实现流程

先通过浅层网络学习channel信息,再通过后面的网络将其消除。

baseline: x-vector

结构:
在这里插入图片描述

在进行adversarial training时,使用GRL将梯度方向。

损失函数:
在这里插入图片描述
Lc检测channel是否正确分类
在这里插入图片描述
使用AAM-Softmax将说话人正确分类
在这里插入图片描述
cosθj = WT j fys

在这里插入图片描述
n代表说话人数量,Wj代表第j列

训练:

Joint Multitask-Adversarial training:
使用Joint Multi-task learning与Adversarial training同时更新参数。Multi-task learning在statistics pooling layer进行,adversarial training在embedding layer进行。

Progressive Multi-task-Adversarial training:
先进行Multi-task learning,之后去掉multi-task learning branch,进行Adversarial training

test阶段采用PLDA进行打分。

实验

AAM-Loss的m从0线性增长到2,momentum为0.9,learning rate为0.0001
environment as channel information:选取2种设备录制的语音,手动标注6种环境。
devices as channel information:总共选取5种设备

environment:
在这里插入图片描述
progressive training 的表现好于joint training。
在progressive中, statistic level multitask training branch只存在于训练早期。
在训练早期,multi-task training可以学习channel的知识,之后再通过adversarial training进行消除。

device:
在这里插入图片描述

结论与environment一致。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值