【AI视野·今日Sound 声学论文速览第三期】Wed, 20 Apr 2022_:smith, j. (2022). "advancements in voice recognit-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/124313012

AI视野·今日CS.Sound 声学论文速览
Wed, 20 Apr 2022
Totally 12 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚基于音频事件的自动音频标注, 为音频剪辑生成有意义的文字描述。(from Baskent University)

在这里插入图片描述
http://www.baskent.edu.tr/~msert/

Daily Sound Papers

Disappeared Command: Spoofing Attack On Automatic Speech Recognition Systems with Sound Masking
Authors Jinghui Xu, Jiangshan Zhang, Jifeng Zhu, Yong Yang
深度学习技术的发展极大地推动了自动语音识别ASR技术的性能提升，在很多任务中都表现出了媲美人类听觉的能力。语音接口越来越广泛地用作许多应用程序和智能设备的输入。

A Convolutional-Attentional Neural Framework for Structure-Aware Performance-Score Synchronization
Authors Ruchit Agrawal, Daniel Wolff, Simon Dixon
演奏乐谱同步是信号处理中不可或缺的任务，它需要在演奏的录音和相应的乐谱之间生成准确的映射。传统的同步方法使用知识驱动和随机方法计算对齐，并且通常无法很好地推广到不同的领域和模式。我们提出了一种新的数据驱动方法，用于结构感知性能分数同步。我们提出了一种卷积注意力架构，该架构使用基于时间序列差异的自定义损失进行训练。我们对与不同乐谱模式相关的音频到 MIDI 和音频到图像对齐任务进行了实验。我们通过消融研究和与最先进的对齐方法的比较来验证我们方法的有效性。我们证明了我们的方法在分数模态和声学条件下的各种测试设置中优于以前的同步方法。

Audio-Visual Wake Word Spotting System For MISP Challenge 2021
Authors Yanguang Xu, Jianwei Sun, Yang Han, Shuaijiang Zhao, Chaoyang Mei, Tingwei Guo, Shuran Zhou, Chuandong Xie, Wei Zou, Xiangang Li, Shuran Zhou, Chuandong Xie, Wei Zou, Xiangang Li
本文介绍了我们为 2021 年基于多模态信息的语音处理 MISP 挑战的任务 1 设计的系统的详细信息。任务 1 的目的是利用音频和视频信息来提高远场唤醒词识别的环境鲁棒性。在所提出的系统中，首先，我们利用诸如波束成形和加权预测误差 WPE 等语音增强算法来处理多麦克风对话音频。其次，应用了几种数据增强技术来模拟更真实的远场场景。对于视频信息，提供的感兴趣区域 ROI 用于获得视觉表示。然后提出了多层 CNN 来学习音频和视觉表示，并将这些表示输入到我们的两个基于分支注意力的网络中，这些网络可以用于融合，例如 Transformer 和 Conformed。焦点损失用于微调模型并显着提高性能。

Self Supervised Adversarial Domain Adaptation for Cross-Corpus and Cross-Language Speech Emotion Recognition
Authors Siddique Latif, Rajib Rana, Sara Khalifa, Raja Jurdak, Bj rn Schuller
尽管最近在单个语料库设置中语音情感识别 SER 取得了进展，但这些 SER 系统的性能在跨语料库和跨语言场景中显着下降。关键原因是 SER 系统缺乏对未知条件的泛化能力，这导致它们在跨语料库和跨语言设置中表现不佳。最近的研究集中在利用对抗性方法来学习领域广义表示，以改进跨语料库和跨语言 SER 来解决这个问题。然而，这些方法中的许多只关注跨语料库 SER，而没有解决由于源语言数据和目标语言数据之间更大的域差距而导致的跨语言 SER 性能下降。该贡献提出了一个对抗性双重鉴别器 ADDi 网络，该网络使用三人对抗性游戏来学习广义表示，而不需要任何目标数据标签。我们还介绍了一个自我监督的 ADDi sADDi 网络，该网络利用未标记数据的自我监督预训练。我们建议将合成数据生成作为 sADDi 中的一个借口任务，使网络能够产生情感区分和域不变表示，并提供补充合成数据来增强系统。所提出的模型使用三种语言的五个公开可用数据集进行了严格评估，并与跨语料库和跨语言 SER 的多项研究进行了比较。

Automated Audio Captioning using Audio Event Clues
Authors Ay eg l zkaya Eren, Mustafa Sert
音频字幕是一个重要的研究领域，旨在为音频剪辑生成有意义的描述。大多数现有研究提取音频剪辑的声学特征作为编码器解码器和转换器架构的输入，以按顺序生成字幕。由于数据不足和架构学习能力不足，需要额外的信息来生成自然语言句子以及声学特征。为了解决这些问题，提出了一种编码器解码器架构，该架构从声学特征和提取的音频事件标签作为输入中学习。所提出的模型基于预先训练的声学特征和音频事件检测。各种实验使用不同的声学特征、词嵌入模型、音频事件标签提取方法和实现配置来显示哪些组合在音频字幕任务上具有更好的性能。

AB/BA analysis: A framework for estimating keyword spotting recall improvement while maintaining audio privacy
Authors Raphael Petegrosso, Vasistakrishna Baderdinni, Thibaud Senechal, Benjamin L. Bullough
在现实的隐私约束下，对检测语音中关键词的关键词发现 KWS 系统进行评估是一项具有挑战性的任务。 KWS 旨在仅在存在关键字时收集数据，从而限制可能包含假阴性的硬样本的可用性，并防止从生产数据中直接估计模型召回。或者，从其他来源收集的补充数据可能无法完全代表实际应用。在这项工作中，我们提出了一种评估技术，我们称之为 AB BA 分析。我们的框架根据基线模型 A 评估候选 KWS 模型 B，使用跨数据集离线解码进行相对召回估计，而不需要负样本。此外，我们提出了一个带有假设的公式，即使误报的数量很少，也允许估计具有低方差的模型之间的相对误报率。最后，我们建议利用机器生成的软标签，在我们称为半监督 AB BA 分析的技术中，这可以改善分析时间、隐私和成本。

On the Locality of Attention in Direct Speech Translation
Authors Belen Alastruey, Javier Ferrando, Gerard I. G llego, Marta R. Costa juss
Transformers 在多个 NLP 任务中取得了最先进的结果。然而，自我注意机制的复杂性与序列长度成二次方关系，为涉及长序列的任务（如语音领域）创造了障碍。在本文中，我们讨论了自我注意对直接语音翻译的有用性。首先，我们分析了编码器自注意力中的层级令牌贡献，揭示了局部对角线模式。为了证明某些注意力权重是可以避免的，我们建议用本地有效的自我注意力替代标准的自我注意力，根据分析结果设置使用的上下文量。

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation
Authors Keqi Deng, Shinji Watanabe, Jiatong Shi, Siddhant Arora
尽管 Transformers 在口语理解 SLU 和语音翻译 ST 等多项语音处理任务中取得了成功，但在保持竞争力的同时实现在线处理对于现实世界的交互仍然至关重要。在本文中，我们在流式 SLU 和同步 ST 上迈出了第一步，使用基于上下文块处理和块同步波束搜索的块流式 Transformer。此外，我们为流式 SLU 任务设计了一种基于自动语音识别 ASR 的中间损失正则化，以进一步提高分类性能。对于同步 ST 任务，我们提出了一种跨语言编码方法，该方法采用了针对目标语言翻译进行优化的 CTC 分支。此外，CTC翻译输出还用于以CTC前缀分数细化搜索空间，首次实现联合CTC注意力同声翻译。 SLU 的实验在 FSC 和 SLURP 语料库上进行，而 ST 任务在 Fisher CallHome Spanish 和 MuST C En De 语料库上进行评估。

An Investigation of Monotonic Transducers for Large-Scale Automatic Speech Recognition
Authors Niko Moritz, Frank Seide, Duc Le, Jay Mahadeokar, Christian Fuegen
流式端到端自动语音识别 ASR 的两个最流行的损失函数是 RNN Transducer RNN T 和连接主义时间分类 CTC 目标。两者都通过边缘化所有可能的对齐来执行无对齐训练，但使用不同的转换规则。在这两种损失类型之间，我们可以对单调 RNN T MonoRNN T 和最近提出的 CTC（如 Transducer CTC T ）进行分类，这两者都可以使用图时间分类传感器 GTC T 损失函数来实现。单调换能器有几个优点。首先，RNN T 可能会出现失控幻觉，即模型不断发出非空白符号而没有及时推进，通常处于无限循环中。其次，单调换能器每个时间步只消耗一个模型分数，因此与传统的基于 FST 的混合 ASR 解码器更兼容和统一。然而，到目前为止，MonoRNN T 被发现比 RNN T 具有更差的准确度。它不一定是这样，尽管通过联合 LAS 训练或来自 RNN T 的参数初始化对训练进行正则化，MonoRNN T 和 CTC T 都执行为

Single-Channel Speech Dereverberation using Subband Network with A Reverberation Time Shortening Target
Authors Rui Zhou, Wenye Zhu, Xiaofei Li
这项工作提出了一种用于单通道语音去混响的子带网络，以及一种基于混响时间缩短 RTS 的新学习目标。在时频域，我们建议使用子带网络对不同频段独立执行去混响。时域卷积可以很好地分解为子带卷积，因此训练子带网络进行子带反卷积是合理的。去混响的学习目标通常设置为直接路径语音或可选地带有一些早期反射。这种类型的目标会突然截断混响，因此可能不适合网络训练，并导致较大的预测误差。在这项工作中，我们提出了一种 RTS 学习目标来抑制混响，同时保持混响的指数衰减特性，这将简化网络训练，从而减少预测误差和信号失真。

Audio Deep Fake Detection System with Neural Stitching for ADD 2022
Authors Rui Yan, Cheng Wen, Shuran Zhou, Tingwei Guo, Wei Zou, Xiangang Li
本文描述了我们为 ADD 2022 The First Audio Deep Synthesis Detection Challenge 引用 Yi2022ADD 的最佳系统和方法。 Track 3.2 中的两轮评估都使用了相同的系统，并采用了类似的培训方法。 Track 3.2 的第一轮数据由 Text to Speech TTS 或语音转换 VC 算法生成，而第二轮数据由 Track 3.1 中其他参与者生成的假音频组成，旨在欺骗我们的系统。我们的系统使用标准的 34 层 ResNet，通过多头注意力池引用 india2019self 来学习用于假音频和欺骗检测的判别嵌入。我们进一步利用神经拼接来提高模型的泛化能力，以便在不同的任务中表现同样出色，更多细节将在接下来的会议中解释。

Time Domain Adversarial Voice Conversion for ADD 2022
Authors Cheng Wen, Tingwei Guo, Xingjun Tan, Rui Yan, Shuran Zhou, Chuandong Xie, Wei Zou, Xiangang Li
在本文中，我们描述了我们用于第一个音频深度合成检测挑战 ADD 2022 的语音生成系统。首先，我们构建了一个任意对多语音转换VC系统，将具有任意语言内容的源语音转换为目标说话人的假语音。然后将 VC 生成的转换后的语音在时域中进行后处理，以提高欺骗能力。实验结果表明，我们的系统对反欺骗检测器具有对抗能力，但在音频质量和说话人相似性方面略有妥协。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com