【AI视野·今日Sound 声学论文速览 第十五期】Fri, 29 Sep 2023

53 篇文章 3 订阅
50 篇文章 0 订阅
本文探讨了如何通过联合交叉注意力机制在音频和视觉信息中融合深度学习模型,以提升说话人验证的性能。研究者提出了一种新方法,有效捕捉面部和声音的模内及模间关系,实验结果显示在VoxCeleb1数据集上的性能显著优于传统方法。
摘要由CSDN通过智能技术生成

AI视野·今日CS.Sound 声学论文速览
Fri, 29 Sep 2023
Totally 1 papers
👉上期速览更多精彩请移步主页

Daily Sound Papers

Audio-Visual Speaker Verification via Joint Cross-Attention
Authors R. Gnana Praveen, Jahangir Alam
使用语音信号进行了说话人验证的广泛探索,使用深度模型已显示出显着的改进。最近,人们对面孔和声音的探索激增,因为与仅依赖单一语音信号模态相比,它们可以提供更多补充和更全面的信息。尽管目前文献中有关面部和声音融合的方法已经显示出比个人面部或语音模态的方法有所改进,但视听融合在说话人验证方面的潜力尚未得到充分开发。大多数基于视听融合的现有方法要么依赖于分数级别融合,要么依赖于简单的特征串联。在这项工作中,我们探索了跨模态联合注意力,以充分利用模间互补信息和模内信息进行说话人验证。具体来说,我们根据联合特征表示和个体特征表示之间的相关性来估计交叉注意力权重,以便有效地捕获面部和声音之间的模内以及模间关系。我们已经证明,有效利用模内和模间关系可以显着提高用于说话人验证的视听融合的性能。该方法的性能已在 Voxceleb1 数据集上进行了评估。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值