Dpm-tse:目标声音提取的扩散概率模型

最新推荐文章于 2024-08-20 10:58:52 发布

budangdiyi

最新推荐文章于 2024-08-20 10:58:52 发布

阅读量577

点赞数 17

文章标签：人工智能

本文链接：https://blog.csdn.net/budangdiyi/article/details/140412312

版权

第二章目标说话人提取之《DPM-TSE: A DIFFUSION PROBABILISTIC MODEL FOR TARGET SOUND EXTRACTION》

文章目录

前言
一、任务
二、动机
三、挑战
四、方法
五、实验评价
六、结论
七、知识小结

前言

语音新手入门，学习读懂论文。
本文作者机构是美国巴尔的摩约翰霍普金斯大学计算听觉实验室2美国巴尔的摩约翰霍普金斯大学语言与语音处理中心3香港中文大学，中国香港特别特区
在这里插入图片描述

一、任务

此研究引入了DPM-TSE，一种基于扩散概率建模(DPM)的目标声音提取(TSE)生成方法，以实现更清晰的目标渲染，并提高与不需要的声音的可分离性。该技术还通过引入噪声表和采样步骤的校正方法来解决DPM的噪声问题。

二、动机

与判别方法不同，旨在匹配信号分布的生成建模允许近似复杂的数据分布，这有可能产生更自然的音频。基于dpm的生成模型由于其出色的性能和可靠的训练，近年来越来越受欢迎。

三、挑战

以前的方法，对于非重叠区域，它们可以产生良好的分离效果，但在处理重叠区域时，它们的性能总是会下降。
在图像生成领域中，这一问题被假设为将生成的图像限制为普通中等亮度，难以生成完全黑暗或完全白色的图像内容。当涉及到TSE时，所提取的目标音通常包含许多沉默区。因此，非零终端信噪比可能会阻止模型生成完全无声帧，从而影响声音提取的纯度和整体性能。

四、方法

1.概率扩散模型

扩散概率模型包括前向过程和后向过程。前向过程逐渐向数据中加入高斯噪声，通常基于手动定义的方差表β1，…， βt。
在这里插入图片描述

扩散模型学习逆向过程，逐步恢复信息。这样，DPM可以从随机高斯噪声中生成新的数据。当βt较小时，反阶跃也为高斯阶跃:
在这里插入图片描述

2.修正噪音时间表和采样步骤

调整了现有的噪声计划，通过保持√¯α1不变，将√¯αT更改为零，并对中间t∈[2，…]线性重新缩放√¯αT来强制实现零终端信噪比。当终端阶跃的信噪比为零时，由于输入和输出变得相同，预测噪声λ就变得没有意义了。因此，将神经网络改为预测速度v:
在这里插入图片描述
逆向过程由以下函数执行:

3. 模型框架

在这里插入图片描述

利用扩散模型中参数为θ的神经网络vθ(xt, m, c, t)在给定噪声目标声音xt、混合音频m、单热目标声音标记c和相应扩散步长t的情况下预测速度vt。
U-Net，由4个下采样块和4个上采样块组成，每个上采样块包括2个卷积块和2个自关注块，因此该模型将能够捕获声音事件的局部和时间特征。分别配置128、256、512和512通道，共计106.40M个参数。较大型号变型有194、384、768、768通道配置，总参数239.3 30m。
采用AudioSet上训练的HiFi-GAN声码器作为通用音频波形重建的神经声码器。

4.

五、实验评价

1.数据集

Freesound Dataset Kaggle 2018语料库(FSD)制定了由合成声事件混合组成的数据集。该语料库包含41种声音事件类别，范围从人类产生的声音到乐器和物体噪音。我们生成10秒的音频混合。每个混合包含一个目标声音和从FSD随机选择的1-3个干扰声音。然后在任意时间点叠加10秒背景噪声。

2.消融实验

3.客观评价

我们使用两个最新的TSE模型，WaveFormer和TimTSENet，其原始实现的设置相同，作为我们的基线。WaveFormer和Tim-TSENet都使用基于掩模的TSE判别策略。
我们使用了两个自动评估函数:(1)ViSQOL是一种最初设计用于预测语音信号质量的算法，后来被用于评估音频信号的质量，方法是基于五级平均意见得分近似人类感知反应。(2) CDPAM是一种基于深度神经网络的感知音频度量，它与人类在音质评估任务中的主观评分有很好的相关性，通过深度特征的距离来测量音频相似性。
人的评价：(1)提取:生成的音频是否包含参考音频的所有内容?等级从1到5,1表示在生成的音频中根本听不到参考音频的内容，5表示生成的音频完全包含了参考音频的所有内容。(2)纯度:生成的音频是否只有参考音频的声音?等级从1到5,1表示生成的音频有很多参考音频没有的声音，5表示生成的音频只有参考音频对应的声音，其他声音无法检测到。
在这里插入图片描述在图2中，我们探索了基于客观指标的不同声音类别中目标声音提取的性能。这三种模型同时在短时间事件(如掰手指、手鼓、牛铃和高帽)中显示出良好的结果，而在长时间复杂事件(如公共汽车、萨克斯管、编钟和长笛)中表现则有所下降。CDPAM和ViSQOL在大多数类中具有相似的分布。因此，我们清楚地注意到，DPM-TSE在大多数类别中显示出明显的优势。
在这里插入图片描述
如表2所示，提出的修正噪声时间表显著提高了模型性能。我们发现使用原始噪声表的DPM-TSE会产生额外的噪声，这在非目标声音区域非常明显。较大模型的DPM-TSE表现出性能下降，这可能是由于过拟合。