【AI视野·今日Sound 声学论文速览 第十八期】Wed, 4 Oct 2023

53 篇文章 3 订阅
50 篇文章 0 订阅

AI视野·今日CS.Sound 声学论文速览
Wed, 4 Oct 2023
Totally 4 papers
👉上期速览更多精彩请移步主页

Daily Sound Papers

Mel-Band RoFormer for Music Source Separation
Authors Ju Chiang Wang, Wei Tsung Lu, Minz Won
最近,基于多频段频谱图的方法(例如频段分割 RNN BSRNN)已经证明了音乐源分离的良好结果。在我们最近的工作中,我们引入了 BS RoFormer 模型,该模型继承了前端 BSRNN 中频带分割方案的思想,然后使用具有旋转位置嵌入 RoPE 的分层 Transformer 对多频带掩模的内带和带间序列进行建模估计。该模型已实现最先进的性能,但频带分割方案是根据经验定义的,没有文献的分析支持。在本文中,我们提出了 Mel RoFormer,它采用 Mel 带方案,根据 Mel 尺度将频率仓映射到重叠的子带。合同中,BSRNN 和 BS RoFormer 中的频带分割映射是不重叠的,并且是基于启发式设计的。

Audio-visual child-adult speaker classification in dyadic interactions
Authors Anfeng Xu, Kevin Huang, Tiantian Feng, Helen Tager Flusberg, Shrikanth Narayanan
涉及儿童的互动涵盖了从学习到临床诊断和治疗背景的广泛重要领域。对此类交互的自动分析的动机是寻求准确的见解并在不同和广泛的条件下提供规模和稳健性。识别属于孩子的语音片段是此类建模的关键步骤。传统的儿童成人说话者分类通常依赖于音频建模方法,忽略了传达语音清晰度信息(例如嘴唇运动)的视觉信号。在纯音频儿童成人说话者分类管道的基础上,我们建议通过主动说话者检测和视觉处理模型合并视觉线索。我们的框架涉及视频预处理、话语级别的儿童成人说话人检测以及模态特定预测的后期融合。我们通过大量实验证明,视觉辅助分类管道可以提高分类的准确性和鲁棒性。

Preserving Phonemic Distinctions for Ordinal Regression: A Novel Loss Function for Automatic Pronunciation Assessment
Authors Bi Cheng Yan, Hsin Wei Wang, Yi Cheng Wang, Jiun Ting Li, Chi Han Lin, Berlin Chen
自动发音评估 APA 能够量化第二语言 L2 学习者的语言发音水平。流行的 APA 方法通常利用经过回归损失函数(例如均方误差 MSE 损失)训练的神经模型来进行熟练程度预测。尽管大多数回归模型可以有效地捕获特征空间中熟练程度的序数,但它们面临的主要障碍是具有相同熟练程度的不同音素类别不可避免地被迫彼此接近,保留较少的音素区分信息。鉴于此,我们设计了一种音素对比序数 PCO 损失,用于训练基于 APA 模型的回归,其目的是在考虑回归目标输出的序数关系的同时,保留音素类别之间更好的音素区别。具体来说,我们在 MSE 损失中引入了音素不同正则化器,它鼓励不同音素类别的特征表示相距较远,同时通过加权距离拉近属于同一音素类别的表示。

One model to rule them all ? Towards End-to-End Joint Speaker Diarization and Speech Recognition
Authors Samuele Cornell, Jee weon Jung, Shinji Watanabe, Stefano Squartini
本文提出了一种联合说话人二值化SD和自动语音识别ASR的新框架,称为SLIDAR滑动窗口二值化增强识别。 SLIDAR 可以处理任意长度的输入,并且可以处理任意数量的发言者,有效解决谁同时发言的问题。 SLIDAR 利用滑动窗口方法,由端到端二值化增强语音转录 E2E DAST 模型组成,该模型在本地为每个窗口转录、二值化和说话者嵌入提供服务。 E2E DAST 模型基于编码器解码器架构,并利用序列化输出训练和 Whisper 风格提示等最新技术。然后,通过对说话人嵌入进行聚类以获得全局说话人身份,组合本地输出以获得最终的 SD ASR 结果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值