PeriodWave: 一个新颖的通用波形生成模型

AI立志传

于 2024-08-22 19:07:40 发布

阅读量290

点赞数 9

文章标签：人工智能语音识别

本文链接：https://blog.csdn.net/2401_86832311/article/details/141435878

版权

高保真波形生成，特别是在文本到语音（TTS）和音频生成应用中，涉及几个关键挑战。生成自然声音的音频是一个主要问题，这对于实际应用至关重要。捕捉高分辨率波形的自然周期性，并生成无金属声或嘶嘶声等伪影的高质量输出是困难的。此外，推理速度慢限制了许多高质量生成模型的实用性。克服这些挑战对于推进语音转换、TTS和通用音频合成的AI能力至关重要。

当前的波形生成方法主要采用基于GAN的模型，如MelGAN、HiFi-GAN和BigVGAN。这些模型通过使用各种判别器捕捉不同特征的音频信号，快速生成高质量波形。然而，它们面临着大量的局限性，包括需要广泛的超参数调整、复杂的损失函数以及训练和推理不匹配的问题，这可能导致生成音频中出现不良伪影。扩散模型如多频带扩散（MBD）试图通过分别建模频带来解决质量问题，但它们生成速度慢且难以准确捕捉高频信息，限制了其实时或高保真情境下的实用性。

来自韩国国立大学、韩国大学和KT公司的研究团队提出了PeriodWave，一种新颖的波形生成方法，结合了周期感知流匹配。该方法在估计过程中包含多个周期，从而捕捉波形信号的周期性特征，反映高分辨率波形的自然周期性。核心创新包括使用流匹配基于最优传输路径估计向量场，确保快速和准确的波形生成。该方法还引入了一个周期条件的通用估计器，能够跨不同周期并行推理，显著提高了计算效率。此外，PeriodWave使用离散小波变换（DWT）进行频率解缠，增强了模型生成准确高频分量的能力。这种技术组合代表了一项重大进展，提供了一种更高效和可扩展的高保真波形生成解决方案。

PeriodWave集成了多个先进的技术组件以实现卓越的性能。基于时间条件的UNet结构用于向量场估计，这对于捕捉波形信号的周期特征至关重要。输入信号被重塑为与不同周期相对应的二维数据，并使用二维卷积和ResNet块进行周期感知特征提取。模型通过使用质数来处理多个周期，以避免重叠并确保特征的全方位提取。对于高频建模，使用DWT将波形分离为多个频带，并为每个频带配备专业的估计器。此外，FreeU也被引入，用于在跳过连接中缩减高频成分，减少噪声，并改善整体波形质量。该方法在LJSpeech和LibriTTS等数据集上进行训练，并使用AdamW优化器进行优化。

PeriodWave在客观和主观指标上均优于现有模型。在LJSpeech数据集上，它在包括M-STFT、PESQ、周期性和音高准确性等多项指标上实现了显著的性能提升，以显著更少的训练步骤超越了BigVGAN和HiFi-GAN等最先进的模型。例如，PeriodWave+FreeU实现了4.293的PESQ得分和15.753的音高误差距离，超过了BigVGAN的4.210 PESQ得分和19.019的音高误差距离。生成高质量波形的能力，同时减少训练时间（仅三天），突显了其效率。此外，它在超出分布场景中表现出了稳健性，在包含各种音频类型而非仅语音的MUSDB18-HQ数据集上表现出色，进一步证明了其在实际应用中的多样性和鲁棒性。

总之，PeriodWave代表了波形生成领域的一个突破性进展，提供了一种新颖的周期感知流匹配方法，有效捕捉高分辨率信号的自然周期性。该方法通过引入多周期估计、DWT进行频率解缠和FreeU降噪，解决了现有基于GAN和扩散技术的局限性。结果表明，PeriodWave不仅提升了生成波形的质量，还显著减少了训练时间，使其成为TTS、音频生成等应用中的高效实用解决方案。PeriodWave代表了AI驱动音频合成的一大步，为在各种应用中潜在替代传统神经声码器提供了一个稳健且可扩展的工具。

AI立志传

关注

9
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
PeriodWave: 一个新颖的通用波形生成模型

在LJSpeech数据集上，它在包括M-STFT、PESQ、周期性和音高准确性等多项指标上实现了显著的性能提升，以显著更少的训练步骤超越了BigVGAN和HiFi-GAN等最先进的模型。总之，PeriodWave代表了波形生成领域的一个突破性进展，提供了一种新颖的周期感知流匹配方法，有效捕捉高分辨率信号的自然周期性。然而，它们面临着大量的局限性，包括需要广泛的超参数调整、复杂的损失函数以及训练和推理不匹配的问题，这可能导致生成音频中出现不良伪影。此外，推理速度慢限制了许多高质量生成模型的实用性。
复制链接

扫一扫