phoneme variability : 不同语句发音不同
channel mismatch : 录音设备与环境不同
实现流程
先通过浅层网络学习channel信息,再通过后面的网络将其消除。
baseline: x-vector
结构:
在进行adversarial training时,使用GRL将梯度方向。
损失函数:
Lc检测channel是否正确分类
使用AAM-Softmax将说话人正确分类
n代表说话人数量,Wj代表第j列
训练:
Joint Multitask-Adversarial training:
使用Joint Multi-task learning与Adversarial training同时更新参数。Multi-task learning在statistics pooling layer进行,adversarial training在embedding layer进行。
Progressive Multi-task-Adversarial training:
先进行Multi-task learning,之后去掉multi-task learning branch,进行Adversarial training
test阶段采用PLDA进行打分。
实验
AAM-Loss的m从0线性增长到2,momentum为0.9,learning rate为0.0001
environment as channel information:选取2种设备录制的语音,手动标注6种环境。
devices as channel information:总共选取5种设备
environment:
progressive training 的表现好于joint training。
在progressive中, statistic level multitask training branch只存在于训练早期。
在训练早期,multi-task training可以学习channel的知识,之后再通过adversarial training进行消除。
device:
结论与environment一致。