【AI视野·今日Sound 声学论文速览第二十二期】Tue, 10 Oct 2023

hitrjj

已于 2023-10-14 23:58:35 修改

阅读量379

点赞数

分类专栏： audio Sound Papers 文章标签：语音攻击语音生成 ASR 音频智能神经信号到语音合成音频去噪

于 2023-10-11 11:21:45 首次发布

本文链接：https://blog.csdn.net/u014636245/article/details/133764027

版权

AI视野·今日CS.Sound 声学论文速览
Tue, 10 Oct 2023
Totally 33 papers
👉上期速览✈更多精彩请移步主页

Interesting:

📚Masked Audio-Video Learners MAViL, 基于掩膜音频学习的扩散模型用于音频建模与生成。(from Apple )
在这里插入图片描述

Daily Sound Papers

Pre-trained Spatial Priors on Multichannel NMF for Music Source Separation
Authors Pablo Cabanas Molero, Antonio J. Munoz Montoro, Julio Carabias Orti, Pedro Vera Candeas
本文提出了一种利用录音设置期间获得的空间信息来分离声源的新颖方法。我们的方法使用单独通道来训练空间混合滤波器，以捕获有关每个传感器位置的房间脉冲响应和传感器响应的信息。然后将此预训练的滤波器集成到多通道非负矩阵分解 MNMF 方案中，以更好地捕获不同声源的方差。我们实验中使用的录音设置是管弦乐队录音的典型设置，管弦乐队的每个部分都有一个主麦克风和一个近距离心形或超心形麦克风。这使得所提出的方法适用于许多现有的录音。

Audio compression-assisted feature extraction for voice replay attack detection
Authors Xiangyu Shi, Yuhao Luo, Li Wang, Haorui He, Hao Li, Lei Wang, Zhizheng Wu
重放攻击是最有效、最简单的语音欺骗攻击之一。根据自动扬声器验证欺骗和对策挑战 2021 ASVspoof 2021，检测重放攻击具有挑战性，因为它们涉及扬声器、麦克风和声学条件（例如背景噪声）。检测重放攻击的一个障碍是找到反映添加到重放语音中的通道噪声信息的鲁棒特征表示。本研究提出了一种使用音频压缩来辅助的特征提取方法。音频压缩可压缩音频以保留内容和讲话者信息以供传输。解压缩后丢失的信息预计将包含内容和与说话者无关的信息，例如在重放过程中添加的通道噪声。我们在 ASVspoof 2021 物理访问 PA 集上使用一些数据增强技术和 3 个分类器进行了全面的实验，并证实了所提出的特征提取方法的有效性。

Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond
Authors Jiatong Shi, William Chen, Dan Berrebbi, Hsiu Hsuan Wang, Wei Ping Huang, En Pei Hu, Ho Lam Chuang, Xuankai Chang, Yuxun Tang, Shang Wen Li, Abdelrahman Mohamed, Hung yi Lee, Shinji Watanabe
2023 年多语言语音通用性能基准 ML SUPERB 挑战赛扩展了广受好评的 SUPERB 框架，强调多语言语音识别和语言识别中的自监督模型。该挑战赛包括专注于将 ML SUPERB 应用到特定多语言主题的研究轨道、模型提交的挑战轨道以及新语言轨道，语言资源研究人员可以在多语言最新进展的背景下贡献和评估他们的低资源语言数据语音识别。该挑战赛收集了 12 个模型提交内容和 54 种语言语料库，最终形成了涵盖 154 种语言的综合基准。

AdvSV: An Over-the-Air Adversarial Attack Dataset for Speaker Verification
Authors Li Wang, Jiaqi Li, Yuhao Luo, Jiahao Zheng, Lei Wang, Hao Li, Ke Xu, Chengfang Fang, Jie Shi, Zhizheng Wu
众所周知，深度神经网络很容易受到对抗性攻击。尽管基于深度神经网络构建的自动说话人验证 ASV 在受控场景中表现出强大的性能，但许多研究证实 ASV 容易受到对抗性攻击。缺乏标准数据集是进一步研究，尤其是可重复研究的瓶颈。在这项研究中，我们开发了一个用于说话者验证研究的开源对抗性攻击数据集。作为第一步，我们专注于空中攻击。无线对抗攻击涉及扰动生成算法、扬声器、麦克风和声学环境。记录配置的变化使得重现以前的研究变得非常具有挑战性。 AdvSV 数据集是使用 Voxceleb1 验证测试集作为基础构建的。该数据集采用遭受对抗性攻击的代表性 ASV 模型，并记录对抗性样本来模拟空中攻击设置。数据集的范围可以轻松扩展以包括更多类型的对抗性攻击。该数据集将根据 CC BY 许可向公众发布。

An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification
Authors Jiaqi Li, Li Wang, Liumeng Xue, Lei Wang, Zhizheng Wu
深度学习在过去几年中推动了自动说话人验证 ASV 的发展。尽管众所周知，基于深度学习的 ASV 系统容易受到数字访问中的对抗性示例的影响，但很少有关于物理访问背景下的对抗性攻击的研究，其中涉及重放过程，即无线传输。无线攻击涉及扬声器、麦克风和影响声波运动的重放环境。我们的初步实验证实，重放过程会影响空中攻击性能的有效性。本研究针对利用神经重放模拟器来提高空中对抗攻击的鲁棒性进行了初步调查。这是通过在估计对抗性扰动时使用神经波形合成器来模拟重放过程来实现的。在 ASVspoof2019 数据集上进行的实验证实，神经重放模拟器可以显着提高空中对抗攻击的成功率。

VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023
Authors Yiquan Zhou, Meng Chen, Yi Lei, Jihua Zhu, Weifeng Zhao
本文介绍了 T02 团队在 2023 年歌声转换挑战赛 SVCC2023 中的系统。我们的系统需要基于 VITS 的 SVC 模型，包含三个模块：特征提取器、语音