Dpm-tse:目标声音提取的扩散概率模型

第二章 目标说话人提取之《DPM-TSE: A DIFFUSION PROBABILISTIC MODEL FOR TARGET SOUND EXTRACTION》



前言

语音新手入门,学习读懂论文。
本文作者机构是美国巴尔的摩约翰霍普金斯大学计算听觉实验室2美国巴尔的摩约翰霍普金斯大学语言与语音处理中心3香港中文大学,中国香港特别特区
在这里插入图片描述


一、任务

此研究引入了DPM-TSE,一种基于扩散概率建模(DPM)的目标声音提取(TSE)生成方法,以实现更清晰的目标渲染,并提高与不需要的声音的可分离性。该技术还通过引入噪声表和采样步骤的校正方法来解决DPM的噪声问题。

二、动机

与判别方法不同,旨在匹配信号分布的生成建模允许近似复杂的数据分布,这有可能产生更自然的音频。基于dpm的生成模型由于其出色的性能和可靠的训练,近年来越来越受欢迎。

三、挑战

以前的方法,对于非重叠区域,它们可以产生良好的分离效果,但在处理重叠区域时,它们的性能总是会下降。
在图像生成领域中,这一问题被假设为将生成的图像限制为普通中等亮度,难以生成完全黑暗或完全白色的图像内容。当涉及到TSE时,所提取的目标音通常包含许多沉默区。因此,非零终端信噪比可能会阻止模型生成完全无声帧,从而影响声音提取的纯度和整体性能。

四、方法

1.概率扩散模型

扩散概率模型包括前向过程和后向过程。前向过程逐渐向数据中加入高斯噪声,通常基于手动定义的方差表β1,…, βt。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

扩散模型学习逆向过程,逐步恢复信息。这样,DPM可以从随机高斯噪声中生成新的数据。当βt较小时,反阶跃也为高斯阶跃:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.修正噪音时间表和采样步骤

调整了现有的噪声计划,通过保持√¯α1不变,将√¯αT更改为零,并对中间t∈[2,…]线性重新缩放√¯αT来强制实现零终端信噪比。当终端阶跃的信噪比为零时,由于输入和输出变得相同,预测噪声λ就变得没有意义了。因此,将神经网络改为预测速度v:
在这里插入图片描述
逆向过程由以下函数执行:在这里插入图片描述

3. 模型框架

在这里插入图片描述

利用扩散模型中参数为θ的神经网络vθ(xt, m, c, t)在给定噪声目标声音xt、混合音频m、单热目标声音标记c和相应扩散步长t的情况下预测速度vt。
U-Net,由4个下采样块和4个上采样块组成,每个上采样块包括2个卷积块和2个自关注块,因此该模型将能够捕获声音事件的局部和时间特征。分别配置128、256、512和512通道,共计106.40M个参数。较大型号变型有194、384、768、768通道配置,总参数239.3 30m。
采用AudioSet上训练的HiFi-GAN声码器作为通用音频波形重建的神经声码器。

4.

五、实验评价

1.数据集

Freesound Dataset Kaggle 2018语料库(FSD)制定了由合成声事件混合组成的数据集。该语料库包含41种声音事件类别,范围从人类产生的声音到乐器和物体噪音。我们生成10秒的音频混合。每个混合包含一个目标声音和从FSD随机选择的1-3个干扰声音。然后在任意时间点叠加10秒背景噪声。

2.消融实验

3.客观评价

我们使用两个最新的TSE模型,WaveFormer和TimTSENet,其原始实现的设置相同,作为我们的基线。WaveFormer和Tim-TSENet都使用基于掩模的TSE判别策略。
我们使用了两个自动评估函数:(1)ViSQOL是一种最初设计用于预测语音信号质量的算法,后来被用于评估音频信号的质量,方法是基于五级平均意见得分近似人类感知反应。(2) CDPAM是一种基于深度神经网络的感知音频度量,它与人类在音质评估任务中的主观评分有很好的相关性,通过深度特征的距离来测量音频相似性。
人的评价:(1)提取:生成的音频是否包含参考音频的所有内容?等级从1到5,1表示在生成的音频中根本听不到参考音频的内容,5表示生成的音频完全包含了参考音频的所有内容。(2)纯度:生成的音频是否只有参考音频的声音?等级从1到5,1表示生成的音频有很多参考音频没有的声音,5表示生成的音频只有参考音频对应的声音,其他声音无法检测到。
在这里插入图片描述在图2中,我们探索了基于客观指标的不同声音类别中目标声音提取的性能。这三种模型同时在短时间事件(如掰手指、手鼓、牛铃和高帽)中显示出良好的结果,而在长时间复杂事件(如公共汽车、萨克斯管、编钟和长笛)中表现则有所下降。CDPAM和ViSQOL在大多数类中具有相似的分布。因此,我们清楚地注意到,DPM-TSE在大多数类别中显示出明显的优势。
在这里插入图片描述
如表2所示,提出的修正噪声时间表显著提高了模型性能。我们发现使用原始噪声表的DPM-TSE会产生额外的噪声,这在非目标声音区域非常明显。较大模型的DPM-TSE表现出性能下降,这可能是由于过拟合。
在这里插入图片描述

4.主观评价


六、结论

在本文中,我们提出了一种基于dpm的TSE生成方法,该方法在提取目标声音和去除无关声音方面非常有效。在未来的工作中,我们的重点将集中在(1)提高DPM-TSE的采样速度;(2)探索零采样TSE、文本引导TSE和音频编辑技术等创新途径。

七、知识小结

  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值