【AI视野·今日Sound 声学论文速览第一期】Thu, 14 Apr 2022

本文链接：https://blog.csdn.net/u014636245/article/details/124179935

AI视野·今日CS.Sound 声学论文速览
Thu, 14 Apr 2022
Totally 11 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚***声音事件检测SET, (from 立命馆大学)
在这里插入图片描述
dataset: URBAN–SED dataset

📚机器学习在结构动力学和振动声学的方面的应用综述, (from 巴黎中央理工学院)
在这里插入图片描述

Daily Sound Papers

Is Speech Pathology a Biomarker in Automatic Speaker Verification?
Authors Soroosh Tayebi Arasteh, Tobias Weise, Maria Schuster, Elmar N th, Andreas Maier, Seung Hee Yang
随着深度学习 DL 的进步以及对数据驱动的语音处理方法的兴趣日益浓厚，医疗领域的语音数据科学家面临的一个主要挑战是病态语音的匿名化，这是使它们能够作为一种可访问性的必要步骤公共培训资源。在本文中，我们调查了病理性语音数据，并将其说话人可验证性与健康个体的说话人可验证性进行了比较。我们利用一个包含 2,000 多名来自不同年龄的各种语音和语音障碍的测试对象的大型病理语音语料库，并应用基于 DL 的自动说话人验证 ASV 技术。结果，我们获得了 0.86 的平均相等错误率 EER，标准差为 0.16，比可比较的健康语音数据库低三倍。我们进一步详细分析了年龄、病理、录音环境和话语长度等外部影响因素对 ASV 的影响，以探索它们各自的影响。我们的研究结果表明，语言病理学是 ASV 的潜在生物标志物。

Receptive Field Analysis of Temporal Convolutional Networks for Monaural Speech Dereverberation
Authors William Ravenscroft, Stefan Goetze, Thomas Hain
语音去混响通常是鲁棒语音处理任务中的一项重要要求。有监督的深度学习 DL 模型为单通道语音去混响提供了最先进的性能。时间卷积网络 TCN 通常用于语音增强任务中的序列建模。 TCN 的一个特点是它们具有取决于特定模型配置的感受野 RF，该配置决定了可以观察到的输入帧的数量以产生单个输出帧。已经表明，TCN 能够对模拟语音数据执行去混响，但是文献中还缺乏彻底的分析，特别是关注 RF。本文根据模型大小和 TCN 的 RF 分析去混响性能。使用 WHAMR 语料库进行的实验（该语料库被扩展为包含具有较大 T60 值的房间脉冲响应 RIR）表明，在训练较小的 TCN 模型时，较大的 RF 可以显着提高性能。

Sound Event Triage: Detecting Sound Events Considering Priority of Classes
Authors Noriyuki Tonami, Keisuke Imoto
我们提出了声音事件检测 SED 声音事件分类 SET 的新任务。 SET 的目标是检测高优先级事件，同时允许误检测低优先级事件，其中为每个事件类别指定了优先级。在针对特定声音事件类别的传统 SED 方法中，只能处理有关目标声音类型的信息。为了灵活地控制更多关于目标事件的信息，所提出的 SET 不仅利用了目标声音的类型，还利用了每个目标声音被优先检测的程度。为了实现 SET，我们应用了一种基于类级别损失条件训练的方法，该方法允许系统输入检测声音事件的优先级。使用 URBAN SED 数据集的实验结果表明，我们的 SET 方案在基于框架和基于交集的 F 分数方面实现了合理的检测性能。

BEHM-GAN: Bandwidth Extension of Historical Music using Generative Adversarial Networks
Authors Eloi Moliner, Vesa V lim ki
音频带宽扩展旨在扩展窄带音频信号的频谱。尽管近年来这个话题得到了广泛的研究，但扩展历史音乐录音带宽的特殊问题仍然是一个开放的挑战。本文提出了基于生成对抗网络的模型 BEHM GAN，作为该问题的实用解决方案。所提出的方法适用于音频的复杂频谱图表示，并且由于采用了专用的正则化策略，可以有效地扩展不分布真实历史记录的带宽。 BEHM GAN 旨在作为降噪记录后的第二步应用，以抑制任何加性干扰，例如点击和背景噪声。我们使用独奏钢琴古典音乐来训练和评估该方法。所提出的方法在客观和主观实验中都优于比较基线。正式的盲听测试结果表明，BEHM GAN 显着提高了 20 世纪早期留声机录音中的感知音质。对于几个项目，在使用建议的带宽扩展算法增强历史记录后，平均意见得分有显着提高。

A Review of Machine Learning Methods Applied to Structural Dynamics and Vibroacoustic
Authors Barbara Cunha LTDS , Christophe Droz I4S , Abdelmalek Zine ICJ , St phane Foulard, Mohamed Ichchou LTDS
机器学习 ML 的使用已迅速扩展到多个领域，在结构动力学和振动声学 SD V 中遇到了许多应用。在前所未有的数据可用性、算法进步和计算能力的推动下，ML 从数据中揭示洞察力的能力不断增强，增强了决策制定、不确定性处理、模式识别和实时评估。 SD V 中的三个主要应用都利用了这些优势。在结构健康监测中，机器学习检测和预测导致安全操作和优化维护计划。 ML 技术在主动噪声控制和主动振动控制中利用了系统识别和控制设计。最后，所谓的基于 ML 的代理模型为昂贵的模拟提供了快速的替代方案，从而实现了稳健和优化的产品设计。尽管该地区有许多作品，但尚未对其进行审查和分析。因此，为了跟踪和理解这种持续的领域整合，本文对 SD V 分析中的 ML 应用进行了调查，阐明了当前的实施状态和新出现的机会。为这三种应用中的每一种确定了主要的方法、优势、局限性和基于科学知识的建议。此外，本文还考虑了数字孪生和物理引导 ML 在克服当前挑战和推动未来研究进展方面的作用。

HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition
Authors Ji Won Yoon, Beom Jun Woo, Nam Soo Kim
使用自监督模型进行预训练，例如 Hidden unit BERT HuBERT 和 wav2vec 2.0，为自动语音识别 ASR 带来了显着的改进。但是，这些模型通常需要昂贵的计算成本才能获得出色的性能，从而降低了推理速度。为了提高模型效率，我们提出了一种 ASR 的早期退出方案，即 HuBERT EE，它允许模型动态停止推理。在 HuBERT EE 中，在中间层添加了多个提前退出分支，每个分支用于决定是否可以提前退出预测。

Production federated keyword spotting via distillation, filtering, and joint federated-centralized training
Authors Andrew Hard, Kurt Partridge, Neng Chen, Sean Augenstein, Aishanee Shah, Hyun Jin Park, Alex Park, Sara Ng, Jessica Nguyen, Ignacio Lopez Moreno, Rajiv Mathews, Fran oise Beaufays
我们在真实用户设备上使用联合学习训练了一个关键字发现模型，并观察到将该模型部署到手机上进行推理时的显着改进。为了弥补设备训练缓存中缺少的数据域，我们采用了联合联合集中训练。为了在设备上没有精选标签的情况下学习，我们制定了一种基于用户反馈信号的置信过滤策略，用于联合蒸馏。

Call-sign recognition and understanding for noisy air-traffic transcripts using surveillance information
Authors Alexander Blatt, Martin Kocour, Karel Vesel , Igor Sz ke, Dietrich Klakow
空中交通管制 ATC 依靠飞行员和空中交通管制员 ATCO 之间的语音通信。呼号作为每个航班的唯一标识符，由 ATCO 用来称呼特定的飞行员。由于嘈杂的 ATC 语音信道和接收器引入的额外噪声，从通信中提取呼号是一项挑战。语音中的低信噪比 SNR 会导致高字错误率 WER 转录。我们提出了一个新的呼号识别和理解 CRU 系统来解决这个问题。识别器经过训练可以识别嘈杂的 ATC 抄本中的呼号，并将其转换为标准的国际民用航空组织 ICAO 格式。通过结合监控信息，我们可以将呼号准确度 CSA 提高到四倍。

Self-critical Sequence Training for Automatic Speech Recognition
Authors Chen Chen, Yuchen Hu, Nana Hou, Xiaofeng Qi, Heqing Zou, Eng Siong Chng
尽管自动语音识别 ASR 任务通过序列到序列模型取得了显着的成功，但其训练和测试之间存在两个主要的不匹配可能导致性能下降 1 通常使用的交叉熵标准旨在最大化训练数据的对数似然度，而性能是通过单词错误率 WER 来评估的，而不是对数似然度 2 教师强制方法导致训练过程中对 ground truth 的依赖，这意味着模型在测试之前从未暴露于自己的预测。在本文中，我们提出了一种称为自临界序列训练 SCST 的优化方法，以使训练过程更接近测试阶段。作为一种基于强化学习 RL 的方法，SCST 利用定制的奖励函数将训练标准和 WER 关联起来。此外，它消除了对教师强迫的依赖，并在推理过程方面协调了模型。

A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes
Authors Shaojin Ding, Weiran Wang, Ding Zhao, Tara N. Sainath, Yanzhang He, Robert David, Rami Botros, Xin Wang, Rina Panigrahy, Qiao Liang, Dongseong Hwang, Ian McGraw, Rohit Prabhavalkar, Trevor Strohman
在本文中，我们提出了一种动态级联编码器自动语音识别 ASR 模型，该模型统一了不同部署场景的模型。此外，该模型可以在不损失质量的情况下显着减小模型尺寸和功耗。即，使用动态级联编码器模型，我们探索了三种技术来最大程度地提高每个模型大小的性能 1 在共享编码器的同时为每个子模型使用单独的解码器 2 使用漏斗池来提高编码器效率 3 平衡因果关系的大小和非因果编码器，以提高质量并适应部署约束。总体而言，与基线级联编码器模型相比，所提出的大中型模型尺寸小 30 倍，功耗降低 33 倍。

A Post Auto-regressive GAN Vocoder Focused on Spectrum Fracture
Authors Zhenxing Lu, Mengnan He, Ruixiong Zhang, Caixia Gong
生成对抗网络 GAN 已被证明在实时语音合成的使用方面具有优势。然而，它们中的大多数都使用深度卷积层作为它们的主干，这可能会导致之前的信号信息的缺失。然而，语音信号的生成总是需要在其重建中使用先前的波形样本，因为缺少这可能会导致生成的语音中出现伪影。为了解决这一冲突，在本文中，我们提出了一种改进的模型，即具有自注意力层的后自回归 AR GAN 声码器，它将自注意力合并到一个 AR 循环中。它不会参与推理，但可以帮助生成器在训练中学习帧内的时间依赖性。此外，还进行了消融研究以确认每个部分的贡献。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com