【AI视野·今日Sound 声学论文速览 第二十二期】Tue, 10 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Tue, 10 Oct 2023
Totally 33 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Interesting:

📚Masked Audio-Video Learners MAViL, 基于掩膜音频学习的扩散模型用于音频建模与生成。(from Apple )
在这里插入图片描述



Daily Sound Papers

Pre-trained Spatial Priors on Multichannel NMF for Music Source Separation
Authors Pablo Cabanas Molero, Antonio J. Munoz Montoro, Julio Carabias Orti, Pedro Vera Candeas
本文提出了一种利用录音设置期间获得的空间信息来分离声源的新颖方法。我们的方法使用单独通道来训练空间混合滤波器,以捕获有关每个传感器位置的房间脉冲响应和传感器响应的信息。然后将此预训练的滤波器集成到多通道非负矩阵分解 MNMF 方案中,以更好地捕获不同声源的方差。我们实验中使用的录音设置是管弦乐队录音的典型设置,管弦乐队的每个部分都有一个主麦克风和一个近距离心形或超心形麦克风。这使得所提出的方法适用于许多现有的录音。

Audio compression-assisted feature extraction for voice replay attack detection
Authors Xiangyu Shi, Yuhao Luo, Li Wang, Haorui He, Hao Li, Lei Wang, Zhizheng Wu
重放攻击是最有效、最简单的语音欺骗攻击之一。根据自动扬声器验证欺骗和对策挑战 2021 ASVspoof 2021,检测重放攻击具有挑战性,因为它们涉及扬声器、麦克风和声学条件(例如背景噪声)。检测重放攻击的一个障碍是找到反映添加到重放语音中的通道噪声信息的鲁棒特征表示。本研究提出了一种使用音频压缩来辅助的特征提取方法。音频压缩可压缩音频以保留内容和讲话者信息以供传输。解压缩后丢失的信息预计将包含内容和与说话者无关的信息,例如在重放过程中添加的通道噪声。我们在 ASVspoof 2021 物理访问 PA 集上使用一些数据增强技术和 3 个分类器进行了全面的实验,并证实了所提出的特征提取方法的有效性。

Findings of the 2023 ML-SUPERB Challenge: Pre-Training and Evaluation over More Languages and Beyond
Authors Jiatong Shi, William Chen, Dan Berrebbi, Hsiu Hsuan Wang, Wei Ping Huang, En Pei Hu, Ho Lam Chuang, Xuankai Chang, Yuxun Tang, Shang Wen Li, Abdelrahman Mohamed, Hung yi Lee, Shinji Watanabe
2023 年多语言语音通用性能基准 ML SUPERB 挑战赛扩展了广受好评的 SUPERB 框架,强调多语言语音识别和语言识别中的自监督模型。该挑战赛包括专注于将 ML SUPERB 应用到特定多语言主题的研究轨道、模型提交的挑战轨道以及新语言轨道,语言资源研究人员可以在多语言最新进展的背景下贡献和评估他们的低资源语言数据语音识别。该挑战赛收集了 12 个模型提交内容和 54 种语言语料库,最终形成了涵盖 154 种语言的综合基准。

AdvSV: An Over-the-Air Adversarial Attack Dataset for Speaker Verification
Authors Li Wang, Jiaqi Li, Yuhao Luo, Jiahao Zheng, Lei Wang, Hao Li, Ke Xu, Chengfang Fang, Jie Shi, Zhizheng Wu
众所周知,深度神经网络很容易受到对抗性攻击。尽管基于深度神经网络构建的自动说话人验证 ASV 在受控场景中表现出强大的性能,但许多研究证实 ASV 容易受到对抗性攻击。缺乏标准数据集是进一步研究,尤其是可重复研究的瓶颈。在这项研究中,我们开发了一个用于说话者验证研究的开源对抗性攻击数据集。作为第一步,我们专注于空中攻击。无线对抗攻击涉及扰动生成算法、扬声器、麦克风和声学环境。记录配置的变化使得重现以前的研究变得非常具有挑战性。 AdvSV 数据集是使用 Voxceleb1 验证测试集作为基础构建的。该数据集采用遭受对抗性攻击的代表性 ASV 模型,并记录对抗性样本来模拟空中攻击设置。数据集的范围可以轻松扩展以包括更多类型的对抗性攻击。该数据集将根据 CC BY 许可向公众发布。

An Initial Investigation of Neural Replay Simulator for Over-the-Air Adversarial Perturbations to Automatic Speaker Verification
Authors Jiaqi Li, Li Wang, Liumeng Xue, Lei Wang, Zhizheng Wu
深度学习在过去几年中推动了自动说话人验证 ASV 的发展。尽管众所周知,基于深度学习的 ASV 系统容易受到数字访问中的对抗性示例的影响,但很少有关于物理访问背景下的对抗性攻击的研究,其中涉及重放过程,即无线传输。无线攻击涉及扬声器、麦克风和影响声波运动的重放环境。我们的初步实验证实,重放过程会影响空中攻击性能的有效性。本研究针对利用神经重放模拟器来提高空中对抗攻击的鲁棒性进行了初步调查。这是通过在估计对抗性扰动时使用神经波形合成器来模拟重放过程来实现的。在 ASVspoof2019 数据集上进行的实验证实,神经重放模拟器可以显着提高空中对抗攻击的成功率。

VITS-based Singing Voice Conversion System with DSPGAN post-processing for SVCC2023
Authors Yiquan Zhou, Meng Chen, Yi Lei, Jihua Zhu, Weifeng Zhao
本文介绍了 T02 团队在 2023 年歌声转换挑战赛 SVCC2023 中的系统。我们的系统需要基于 VITS 的 SVC 模型,包含三个模块:特征提取器、语音
内容概要:本文主要介绍了MySQL元数据的概念及其获取方式。MySQL元数据是关于数据库和其对象(如表、列、索引等)的信息,存储在系统表中,这些表位于information_schema数据库中。文章详细列举了多种常用的MySQL元数据查询命令,如查看所有数据库(SHOW DATABASES)、选择数据库(USE database_name)、查看数据库中的所有表(SHOW TABLES)、查看表的结构(DESC table_name)、查看表的索引(SHOW INDEX FROM table_name)、查看表的创建语句(SHOW CREATE TABLE table_name)、查看表的行数(SELECT COUNT(*) FROM table_name)、查看列的信息以及查看外键信息等。此外,还介绍了information_schema数据库中的多个表,包括SCHEMATA表、TABLES表、COLUMNS表、STATISTICS表、KEY_COLUMN_USAGE表和REFERENTIAL_CONSTRAINTS表,这些表提供了丰富的元数据信息,可用于查询数据库结构、表信息、列信息、索引信息等。最后,文章还给出了获取查询语句影响的记录数的Perl和PHP实例,以及获取数据库和数据表列表的方法。 适合人群:对MySQL数据库有一定了解,想要深入学习MySQL元数据获取和使用的数据库管理员或开发人员。 使用场景及目标:①帮助用户掌握MySQL元数据的获取方法,以便更好地管理和维护数据库;②通过查询information_schema数据库中的系统表,深入了解数据库结构、表信息、列信息、索引信息等;③提供Perl和PHP实例,方便用户在不同编程环境中获取查询语句影响的记录数和数据库及数据表列表。 其他说明:在使用上述SQL语句时,请注意将查询中的'your_database_name'和'your_table_name'替换为实际的数据库名和表名。此外,在获取数据库和数据表列表时,如果没有足够的权限,结果将返回null。
经验模态分解(Empirical Mode Decomposition,EMD)是一种基于数据的信号处理技术,由Nigel Robert Hocking在1998年提出,主要用于分析非线性、非平稳信号。它能够将复杂的信号自适应地分解为若干个本征模态函数(Intrinsic Mode Function,IMF),每个IMF代表信号中不同的频率成分和动态特征。在MATLAB环境下实现EMD,通常包括以下步骤: 信号预处理:对原始信号进行预处理,例如平滑处理或除异常值,以提高后续分解的准确性。 EMD分解:利用EMD算法对预处理后的信号进行分解,将其拆分为多个IMF和一个残余项。每个IMF对应信号的一个内在频率成分,而残余项通常包含低频或直流成分。 希尔伯特变换:对每个IMF进行希尔伯特变换,计算其瞬时幅度和相位,形成希尔伯特谱,从而更直观地分析信号的时频特性。 策略:常见的策略有两种。一种是根据IMF的频率特性,选择保留低频或高频部分,声;另一种是利用IMF的Hurst指数,声IMF的Hurst指数通常较低,因此可以除Hurst指数低于阈值的IMF。 重构信号:根据保留的IMF和残余项,通过逆希尔伯特变换和累加,重构出后的信号。 Hurst分析:Hurst指数是评估时间序列长依赖性的指标,用于区分随机性和自相似性。在EMD中,Hurst分析有助于识别声IMF,从而提升效果。 在提供的压缩包中,“license.txt”可能是软件的许可协议文件,用户需遵循其条款使用代码。“EMD-DFA”可能是包含EMD趋势波动分析(Detrended Fluctuation Analysis,DFA)的MATLAB代码。DFA是一种用于计算信号长自相关的统计方法,常与EMD结合,进一步分析信号的分形特征,帮助识别声并优化效果。该MATLA
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值