【AI视野·今日Sound 声学论文速览第四十四期】Tue, 9 Jan 2024_eat: self-supervised pre-training with efficient a-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/135541018

AI视野·今日CS.Sound 声学论文速览
Tue, 9 Jan 2024
Totally 27 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DJCM: A Deep Joint Cascade Model for Singing Voice Separation and Vocal Pitch Estimation
Authors Haojie Wei, Xueke Cao, Wenbo Xu, Tangpeng Dan, Yueguo Chen
歌声分离和音调估计是音乐信息检索中的关键任务。现有的同时提取干净人声和音调的方法可以分为两类：管道方法和朴素联合学习方法。然而，这些方法的功效受到以下问题的限制：一方面，管道方法独立地为每个任务训练模型，导致训练和测试时的数据分布不匹配。另一方面，朴素的联合学习方法只是增加了两个任务的损失，可能导致每个任务的不同目标之间的不一致。为了解决这些问题，我们提出了一种用于歌声分离和音高估计的深度联合级联模型 DJCM。 DJCM 采用新颖的联合级联模型结构来同时训练这两个任务。此外，任务特定权重用于调整两项任务的不同目标。实验结果表明，DJCM 在这两项任务上都实现了最先进的性能，在歌声分离的信号失真比 SDR 方面大幅提高了 0.45，在音调估计的总体精度 OA 方面大幅提高了 2.86。此外，广泛的消融研究验证了我们提出的模型的每种设计的有效性。

An audio-quality-based multi-strategy approach for target speaker extraction in the MISP 2023 Challenge
Authors Runduo Han, Xiaopeng Yan, Weiming Xu, Pengcheng Guo, Jiayao Sun, He Wang, Quan Lu, Ning Jiang, Lei Xie
本文描述了我们在基于多模态信息的语音处理 MISP 2023 挑战赛中用于视听目标说话人提取 AVTSE 任务的基于音频质量的多策略方法。具体来说，我们的方法根据音频质量采用不同的提取策略，在干扰去除和语音保留之间取得平衡，这有利于后端自动语音识别ASR系统。

ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge
Authors He Wang, Pengcheng Guo, Yue Li, Ao Zhang, Jiayao Sun, Lei Xie, Wei Chen, Pan Zhou, Hui Bu, Xin Xu, Binbin Zhang, Zhuo Chen, Jian Wu, Longbiao Wang, Eng Siong Chng, Sun Li
为推动驾驶场景下的语音处理和识别研究，我们在ISCSLP 2022上举办的智能座舱语音识别挑战赛ICSRC取得成功的基础上，推出了ICASSP 2024车载多通道自动语音识别ICMC ASR挑战赛。本次挑战赛收集了新能源汽车内记录的超过 100 小时的多通道语音数据和 40 小时的噪声进行数据增强。建立了自动语音识别ASR和自动语音分类与识别ASDR两个轨道，分别以字符错误率CER和级联最小排列字符错误率cpCER作为评价指标。总体而言，ICMC ASR 挑战赛吸引了 98 支参赛队伍，并在两个赛道上收到了 53 份有效成绩。

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition
Authors He Wang, Pengcheng Guo, Pan Zhou, Lei Xie
虽然自动语音识别 ASR 系统在噪声环境中性能会显着下降，但视听语音识别 AVSR 系统旨在用噪声不变的视觉提示来补充音频流，并提高系统的鲁棒性。然而，当前的研究主要集中在融合良好学习的模态特征，例如模态特定编码器的输出，而没有考虑模态特征学习期间的上下文关系。在本研究中，我们提出了一种基于 AVSR MLCA AVSR 的多层交叉注意融合方法，该方法通过将每种模态融合在不同级别的视听编码器上来促进每种模态的表示学习。 MISP2022 AVSR Challenge 数据集上的实验结果表明了我们提出的系统的有效性，在评估集上实现了 30.57 的级联最小排列字符错误率 cpCER，与我们之前排名第二的系统相比，相对改进高达 3.17挑战。

Bridging Modalities: Knowledge Distillation and Masked Training for Translating Multi-Modal Emotion Recognition to Uni-Modal, Speech-Only Emotion Recognition
Authors Muhammad Muaz, Nathan Paull, Jahnavi Malagavalli
本文提出了一种创新方法来解决将多模态情感识别模型转换为更实用和资源效率更高的单模态模型的挑战，特别关注纯语音情感识别。从语音信号中识别情绪是人机交互、情感计算和心理健康评估中应用的一项关键任务。然而&