原文链接
Adaptive Large Margin Fine-Tuning For Robust Speaker Verification
一、模型、数据和损失函数
1.模型
a)Block(CNN + BatchNorm + ReLU + MaxPool) * 5
b)Averaged over the temporal dimension and transformed by a linear layer to a fixed-size, called speaker embedding
c)A final projection using linear and softmax layers
2.数据
a)训练数据
LibriSpeech corpus (Ns = 251 speakers, 100 hours) [17] mixed with noise recordings from the WSJ0 Hipster Ambient Mixtures (WHAM!) dataset , 3 seconds, 5-60 dB SNR.
b)测试数据
LibriSpeech testclean corpus (40 speakers, 5 hours) that were not part of the training data and mixed with unseen noises from the WHAM! -3 to 90 dB SNR.
3.损失函数
文章提出了一种改进的损失函数:
loss = cosine distance + cross entropy
较仅用cross entropy和pretrained TDNN model (x-vector speaker embeddings) 在同样的SNR下有更低的EER。
另外,作为第一部分,文章测试了说话人识别所需的最短语音长度,发现在语音长度超过3s后,识别准确率趋于稳定。
二、Speaker Embedding & Acoustic Features
采用线性回归方法计算二者之间的解释方差,如图:
三、机器与人听觉的相似性研究
1.实验设计
a)实验数据:挑选了来自19个speaker的语音数据,其中包含了每个人的最相似和最不相似语音、两个人之间的最相似和最不相似语音:
i)语音以成对的形式出现
ii)发言者的顺序平衡
iii)相同和不同发言者对出现的次数相等
噪音部分:5dB SNR 的高斯噪声频谱以国际长期平均语音频谱加权
b)实验对象:8个平均年龄35岁的正常成年人,通过耳机(Sennheiser HD 600)在一个经过音响处理的隔间里收听
c)数据分析方法:人主观感受的语音之间的相似度由多个人打出的分数给出
2.结果
相关性方面,无噪条件下 r = 0.65, p < 0.001, 有噪条件下 r = 0.51, p < 0.001;另外,加入噪音后,模型识别性能显著降低,而人的主观感受准确率略有提升。