【AI视野·今日Sound 声学论文速览第十五期】Fri, 29 Sep 2023

hitrjj

于 2023-09-29 20:13:33 发布

阅读量179

点赞数

分类专栏： Sound audio Papers 文章标签：人工智能语音识别音频声学学习 audio sound

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014636245/article/details/133420027

版权

Papers 同时被 3 个专栏收录

457 篇文章 109 订阅

订阅专栏

53 篇文章 3 订阅

订阅专栏

50 篇文章 0 订阅

订阅专栏

本文探讨了如何通过联合交叉注意力机制在音频和视觉信息中融合深度学习模型，以提升说话人验证的性能。研究者提出了一种新方法，有效捕捉面部和声音的模内及模间关系，实验结果显示在VoxCeleb1数据集上的性能显著优于传统方法。

摘要由CSDN通过智能技术生成

AI视野·今日CS.Sound 声学论文速览
Fri, 29 Sep 2023
Totally 1 papers
👉上期速览✈更多精彩请移步主页

Daily Sound Papers

Audio-Visual Speaker Verification via Joint Cross-Attention
Authors R. Gnana Praveen, Jahangir Alam
使用语音信号进行了说话人验证的广泛探索，使用深度模型已显示出显着的改进。最近，人们对面孔和声音的探索激增，因为与仅依赖单一语音信号模态相比，它们可以提供更多补充和更全面的信息。尽管目前文献中有关面部和声音融合的方法已经显示出比个人面部或语音模态的方法有所改进，但视听融合在说话人验证方面的潜力尚未得到充分开发。大多数基于视听融合的现有方法要么依赖于分数级别融合，要么依赖于简单的特征串联。在这项工作中，我们探索了跨模态联合注意力，以充分利用模间互补信息和模内信息进行说话人验证。具体来说，我们根据联合特征表示和个体特征表示之间的相关性来估计交叉注意力权重，以便有效地捕获面部和声音之间的模内以及模间关系。我们已经证明，有效利用模内和模间关系可以显着提高用于说话人验证的视听融合的性能。该方法的性能已在 Voxceleb1 数据集上进行了评估。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【AI视野·今日Sound 声学论文速览第十五期】Fri, 29 Sep 2023

最近，人们对面孔和声音的探索激增，因为与仅依赖单一语音信号模态相比，它们可以提供更多补充和更全面的信息。尽管目前文献中有关面部和声音融合的方法已经显示出比个人面部或语音模态的方法有所改进，但视听融合在说话人验证方面的潜力尚未得到充分开发。具体来说，我们根据联合特征表示和个体特征表示之间的相关性来估计交叉注意力权重，以便有效地捕获面部和声音之间的模内以及模间关系。我们已经证明，有效利用模内和模间关系可以显着提高用于说话人验证的视听融合的性能。·今日CS.Sound 声学论文速览。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。