【AI视野·今日Sound 声学论文速览第四期】Thu, 21 Apr 2022

本文链接：https://blog.csdn.net/u014636245/article/details/124353013

AI视野·今日CS.Sound 声学论文速览
Thu, 21 Apr 2022
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚基于生成流的音源分离, (from University of Rocheste)
在这里插入图片描述
数据集方法对比：

Daily Sound Papers

Clotho-AQA: A Crowdsourced Dataset for Audio Question Answering
Authors Samuel Lipping, Parthasaarathy Sudarsanam, Konstantinos Drossos, Tuomas Virtanen
音频问答 AQA 是一项多模式翻译任务，系统分析音频信号和自然语言问题，以生成理想的自然语言答案。在本文中，我们介绍了 Clotho AQA，这是一个音频问答数据集，由 1991 个音频文件组成，每个文件的持续时间在 15 到 30 秒之间，选自 Clotho 数据集 1 。对于每个音频文件，我们使用 Amazon Mechanical Turk 通过众包收集六个不同的问题和相应的答案。问题和答案由不同的注释者生成。在每个音频的六个问题中，每个问题有两个问题设计为有是和否作为答案，而其余两个问题有其他单字答案。对于每个问题，我们从三个不同的注释者那里收集答案。我们还提出了两个基线实验来描述我们的数据集在 AQA 任务中的使用，一个基于 LSTM 的多模态二元分类器用于是或否类型的答案，一个基于 LSTM 的多模态多类分类器用于 828 个单字答案。二元分类器的准确度为 62.7，多类分类器的前 1 准确度为 54.2，前 5 准确度为 93.7。

Exploration strategies for articulatory synthesis of complex syllable onsets
Authors Daniel R. van Niekerk, Anqi Xu, Branislav Gerazov, Paul K. Krug, Peter Birkholz, Yi Xu
高质量的发音语音合成在语音科学和技术中有许多潜在的应用。然而，开发从语言规范到发音手势的适当映射既困难又耗时。在本文中，我们构建了一个基于优化的框架，作为在没有人工干预的情况下学习这些映射的第一步。

Improving Self-Supervised Speech Representations by Disentangling Speakers
Authors Kaizhi Qian, Yang Zhang, Heting Gao, Junrui Ni, Cheng I Lai, David Cox, Mark Hasegawa Johnson, Shiyu Chang
语音中的自我监督学习涉及在大规模无注释语音语料库上训练语音表示网络，然后将学习到的表示应用于下游任务。由于语音中 SSL 学习的大多数下游任务主要集中在语音中的内容信息上，因此最理想的语音表示应该能够从内容中分离出不需要的变化，例如说话者的变化。然而，解开说话人是非常具有挑战性的，因为去除说话人信息也很容易导致内容丢失，而后者的损害通常远远超过前者的好处。在本文中，我们提出了一种新的 SSL 方法，该方法可以在不严重丢失内容的情况下实现扬声器解缠结。我们的方法改编自 HuBERT 框架，并结合了解耦机制来规范教师标签和学习表示。

Detecting Unintended Memorization in Language-Model-Fused ASR
Authors W. Ronny Huang, Steve Chien, Om Thakkar, Rajiv Mathews
端到端 E2E 模型通常伴随着语言模型 LM 通过浅层融合来提高其整体质量以及对稀有词的识别。同时，之前的几项工作表明，LM 容易无意中记住训练数据中稀有或独特的序列。在这项工作中，我们设计了一个框架来检测随机文本序列的记忆，当一个人只有黑盒查询访问 LM 融合语音识别器时，我们在 LM 训练数据中称为金丝雀，而不是直接访问 LM。在与 Transformer LM 融合的生产级 Conformer RNN T E2E 模型上，我们展示了从 300M 示例的 LM 训练数据中检测单个出现的金丝雀的记忆是可能的。

Exploring Continuous Integrate-and-Fire for Efficient and Adaptive Simultaneous Speech Translation
Authors Chih Chiang Chang, Hung yi Lee
同步语音翻译 SimulST 是一项具有挑战性的任务，旨在在观察到完整输入之前直接翻译流式语音。 SimulST 系统通常包括两个重要组件：聚合语音信息的预决策和决定读取或写入的策略。虽然最近的工作提出了多种策略来改进预决策，但它们大多采用固定等待 k 策略。适应性政策很少被探索。我们建议使用 Continuous Integrate 和 Fire CIF 对自适应策略进行建模。在我们提出的模型中，CIF 不仅负责聚合语音信息，还决定何时读取或写入。为了使 CIF 适应 SimulST 任务，我们提出了两个修改：令牌级别的数量损失或无限回溯注意。

Cross-stitched Multi-modal Encoders
Authors Karan Singla, Daniel Pressel, Ryan Price, Bhargav Srinivas Chinnari, Yeon Jun Kim, Srinivas Bangalore
在本文中，我们提出了一种用于多模态语音和文本输入的新颖架构。我们使用多头交叉模态注意力结合预训练的语音和文本编码器，并对目标问题进行联合微调。由此产生的架构可用于连续的标记级别分类或作用于同时文本和语音的话语级别预测。由此产生的编码器有效地捕获声学韵律和词汇信息。我们将基于多头注意力的融合对多模态话语级别分类的好处与预汇集的、模态特定表示的简单串联进行比较。

Music Source Separation with Generative Flow
Authors Ge Zhu, Jordan Darefsky, Fei Jiang, Anton Selitskiy, Zhiyao Duan
多年来，配对混合信号和源信号的音乐源分离已经取得了实质性进展。但是，此设置高度依赖大量配对数据。仅源监督将学习从混合到特定源的映射的过程解耦为两阶段范式源建模和分离。最近仅在源代码监督下的系统要么在合成玩具实验中取得良好的表现，要么在音乐分离任务中表现有限。在本文中，我们利用基于流的隐式生成器来训练音乐源先验和基于似然的目标来分离音乐混合。实验表明，在歌声和音乐分离任务中，我们提出的系统在完整的监督系统之一中取得了可竞争的结果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com