基于说话人嵌入的机器和人听觉说话人识别感知分析

原文链接

 ​​​​​​Adaptive Large Margin Fine-Tuning For Robust Speaker Verification

一、模型、数据和损失函数

1.模型

a)Block(CNN + BatchNorm + ReLU + MaxPool) * 5

 b)Averaged over the temporal dimension and transformed by a linear layer to a fixed-size, called speaker embedding

c)A final projection using linear and softmax layers

2.数据

a)训练数据

 LibriSpeech corpus (Ns = 251 speakers, 100 hours) [17] mixed with noise recordings from the WSJ0 Hipster Ambient Mixtures (WHAM!) dataset , 3 seconds, 5-60 dB SNR.

b)测试数据

LibriSpeech testclean corpus (40 speakers, 5 hours) that were not part of the training data and mixed with unseen noises from the WHAM! -3 to 90 dB SNR.

3.损失函数

文章提出了一种改进的损失函数:

loss = cosine distance + cross entropy

较仅用cross entropy和pretrained TDNN model (x-vector speaker embeddings) 在同样的SNR下有更低的EER。

另外,作为第一部分,文章测试了说话人识别所需的最短语音长度,发现在语音长度超过3s后,识别准确率趋于稳定。

二、Speaker Embedding & Acoustic Features

采用线性回归方法计算二者之间的解释方差,如图:

三、机器与人听觉的相似性研究

1.实验设计

a)实验数据:挑选了来自19个speaker的语音数据,其中包含了每个人的最相似和最不相似语音、两个人之间的最相似和最不相似语音:

        i)语音以成对的形式出现

        ii)发言者的顺序平衡

        iii)相同和不同发言者对出现的次数相等

噪音部分:5dB SNR 的高斯噪声频谱以国际长期平均语音频谱加权

b)实验对象:8个平均年龄35岁的正常成年人,通过耳机(Sennheiser HD 600)在一个经过音响处理的隔间里收听

c)数据分析方法:人主观感受的语音之间的相似度由多个人打出的分数给出

2.结果

相关性方面,无噪条件下 r = 0.65, p < 0.001, 有噪条件下 r = 0.51, p < 0.001;另外,加入噪音后,模型识别性能显著降低,而人的主观感受准确率略有提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值