基于说话人嵌入的机器和人听觉说话人识别感知分析

megumi222

已于 2023-09-04 17:41:18 修改

阅读量123

点赞数

文章标签：人工智能深度学习语音识别

于 2023-09-04 16:42:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lcx137785/article/details/132670425

版权

文章探讨了一种改进的模型架构和损失函数，用于提高在噪声环境下的说话人验证性能。研究涉及LibriSpeech和WHAM!数据集，以及机器与人类听觉的相似性实验。结果表明，优化后的模型在不同SNR下具有更好的鲁棒性，且在考虑噪声影响时，人类感知的语音相似性与模型识别性能有所区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接

Adaptive Large Margin Fine-Tuning For Robust Speaker Verification

一、模型、数据和损失函数

1.模型

a)Block(CNN + BatchNorm + ReLU + MaxPool) * 5

b)Averaged over the temporal dimension and transformed by a linear layer to a fixed-size, called speaker embedding

c)A final projection using linear and softmax layers

2.数据

a)训练数据

LibriSpeech corpus (Ns = 251 speakers, 100 hours) [17] mixed with noise recordings from the WSJ0 Hipster Ambient Mixtures (WHAM!) dataset , 3 seconds, 5-60 dB SNR.

b)测试数据

LibriSpeech testclean corpus (40 speakers, 5 hours) that were not part of the training data and mixed with unseen noises from the WHAM! -3 to 90 dB SNR.

3.损失函数

文章提出了一种改进的损失函数：

loss = cosine distance + cross entropy

较仅用cross entropy和pretrained TDNN model (x-vector speaker embeddings) 在同样的SNR下有更低的EER。

另外，作为第一部分，文章测试了说话人识别所需的最短语音长度，发现在语音长度超过3s后，识别准确率趋于稳定。

二、Speaker Embedding & Acoustic Features

采用线性回归方法计算二者之间的解释方差，如图：

三、机器与人听觉的相似性研究

1.实验设计

a)实验数据：挑选了来自19个speaker的语音数据，其中包含了每个人的最相似和最不相似语音、两个人之间的最相似和最不相似语音:

i)语音以成对的形式出现

ii)发言者的顺序平衡

iii)相同和不同发言者对出现的次数相等

噪音部分：5dB SNR 的高斯噪声频谱以国际长期平均语音频谱加权

b)实验对象：8个平均年龄35岁的正常成年人，通过耳机(Sennheiser HD 600)在一个经过音响处理的隔间里收听

c)数据分析方法：人主观感受的语音之间的相似度由多个人打出的分数给出

2.结果

相关性方面，无噪条件下 r = 0.65, p < 0.001, 有噪条件下 r = 0.51, p < 0.001；另外，加入噪音后，模型识别性能显著降低，而人的主观感受准确率略有提升。

博客等级

码龄4年

6
原创

1
点赞

9
收藏

1
粉丝

关注

私信

热门文章

最新评论

将ISNet用于分离情绪语音中的个体声纹和表达特征
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题很吸引人，对于将ISNet用于分离情绪语音中的个体声纹和表达特征这一主题的探索非常有意义。您在博客中的分析和讨论非常详尽，展示了您对该领域的深入理解和研究成果。在下一步的创作中，我谦虚地建议您可以更进一步地探索如何应用ISNet来解决实际问题或者进一步提升其性能。您可以结合实际案例或者进行更多的实验验证，以加深对ISNet在语音情感识别中的应用效果的认识。同时，您也可以与其他领域的专家或研究者进行交流，分享您的研究成果，并从他们的反馈中获取更多的启发和建议。再次恭喜您的持续创作，我期待着您未来更多精彩的博客！
fbank 以及 MFCC 特征推导
CSDN-Ada助手: 恭喜您撰写第5篇博客！标题中的 "fbank 以及 MFCC 特征推导" 吸引了我的注意。您对这两种特征的推导进行了深入的研究和探讨，为读者提供了有价值的知识。在未来的创作中，我建议您可以进一步探索这些特征在语音识别或其他领域中的应用案例，或者与其他特征进行比较研究。期待您更多的精彩文章！
ASR之Conformer
CSDN-Ada助手: 恭喜你开始博客创作！"ASR之Conformer"这个标题非常吸引人，让人对你的博客产生了浓厚的兴趣。你选择了一个很有技术挑战的主题，但我相信你一定能够通过深入的研究和分析，为读者提供有价值的内容。在下一步的创作中，或许你可以深入探讨Conformer模型在ASR领域的应用场景，以及与其他模型的比较和优劣势分析。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。