跨音频类型实现先进的零样本波形音频生成

目录

BigVGAN:通用神经声码器

生成世界上的每一种声音

Recordings (24 kHz)

BigVGAN

BigVGAN v2

达到人耳能检测到的最高频率

Recordings (44 kHz)

BigVGAN v2 (24 kHz)

BigVGAN v2 (44 kHz)

使用自定义 CUDA 内核加快合成速度

BigVGAN v2 音频质量结果


令人惊叹的音频内容是虚拟世界的重要组成部分。音频生成式 AI 在创建此类内容方面发挥着关键作用,NVIDIA 正在不断突破这一研究领域的极限。BigVGAN 是与 NVIDIA 应用深度学习研究团队和 NVIDIA NeMo 团队合作开发的生成式 AI 模型,专门用于音频波形合成,可实现先进的结果。BigVGAN 生成波形的速度比实时快几个数量级,并且在语音、环境声音和音乐等各种音频类型中表现出强大的稳健性。

本文将讨论 BigVGAN v2,它可以显著提高速度和质量,助力打造所生成的音频与真实音频相去甚远的未来。BigVGAN v2 的亮点包括:

  • 先进的音频质量,由多种音频类型的不同指标来衡量。
  • 利用经过优化的 CUDA 内核,合成速度最高可提升 3 倍
  • 即用型预训练检查点,支持多种音频配置。
  • 支持高达 44 kHz 的采样率,这是人类能够听到的最高声音频率

BigVGAN:通用神经声码器

BigVGAN 是一款通用神经声码器,专门用于使用 Mel spectrograms 作为输入合成音频波形。神经声码器是音频生成式 AI 中的基石方法,可从紧凑型声学特征(如 Mel spectrogram)生成声波。BigVGAN 可通过 GitHub 上的 NVIDIA/BigVGAN 以开源形式提供。

BigVGAN 是一种全卷积架构(Figure 1),具有多个使用转置卷积的上采样块,然后是多个残差扩展卷积层。它具有名为 Anti-Aliased Multi-Periodicity Composition(AMP)的新型模块,专为生成波形而设计。

AMP 专注于合成高频和周期性声波,从音频信号处理原理中汲取灵感。它应用了名为 Snake 的周期激活函数,该函数可在生成周期性声波时为架构提供感应偏差。它还应用了抗锯齿滤波器,以减少生成的波形中不希望出现的伪影。如需了解详情,请参阅 BigVGAN:采用大规模训练的通用神经声码器

The BigVGAN diagram details the flow and interaction between different layers and modules within the BigVGAN framework, highlighting the innovative use of periodic activation functions and filtering methods to improve synthesis fidelity.

图 1. BigVGAN 架构和使用周期激活函数 (Snake1d) 的抗锯齿多周期合成模块 (AMP),以及用于通用波形合成的低通滤波器。

生成世界上的每一种声音

波形音频生成是构建虚拟世界的关键组成部分,长期以来一直是一个活跃的研究领域。尽管波形音频生成很重要,但当前的声编码方法通常会在高频声波中生成缺乏精细细节的音频。BigVGAN v2 有效地解决了这个问题,可以提供具有增强精细细节的高质量音频。

BigVGAN v2 使用 NVIDIA A100 Tensor Core GPU 进行训练,其音频数据比上一代产品多出 100 多倍,该数据集旨在封装世界上的每种声音,包括多种语言的语音、来自日常物体的环境声音以及各种仪器。因此,BigVGAN v2 可以使用单个模型从多个领域生成高质量声波。

下面,以 24 kHz 采样率收听 BigVGAN 和 BigVGAN v2 的真实录音和生成样本的音频比较。BigVGAN v2 生成高质量声波。

Recordings (24 kHz)
BigVGAN
BigVGAN v2

达到人耳能检测到的最高频率

之前的波形合成器的采样率仅限于在 22 kHz 到 24 kHz 之间。然而,BigVGAN v2 将此范围扩展到 44 kHz,封装了整个人类听觉频谱。这与人耳可以检测到的最高频率相匹配,而采样率不超过 40 kHz。因此,BigVGAN v2 可以重现全面的音景,例如捕获所有内容,从鼓声的强劲混响到音乐中铃声的清晰闪烁等。

下面,请听两个 BigVGAN v2 模型的真实录音和生成样本的音频比较,一个模型的采样率为 24 kHz,另一个模型的采样率为 44 kHz。

Recordings (44 kHz)
BigVGAN v2 (24 kHz)
BigVGAN v2 (44 kHz)

使用自定义 CUDA 内核加快合成速度

与其前身相比,BigVGAN v2 还通过使用自定义 CUDA 内核加速了合成速度,其推理速度比原始 BigVGAN 快 3 倍。为 BigVGAN v2 编写的优化推理 CUDA 内核可以在单个 NVIDIA A100 GPU 上生成音频波形,速度比实时快 240 倍。

BigVGAN v2 音频质量结果

与开源前一代产品相比,BigVGAN v2 24 kHz 的语音和通用音频音频质量更胜一筹,并且大幅提升(图 2 和图 3)。

The quality of generated waveforms metrics obtained for BigVGAN v2 24 kHz and BigVGAN models tested on LibriTTS-dev speech data.

图 2. LibriTTS-dev 语音数据上的 BigVGAN v2 24 kHz 与 BigVGAN 结果对比。

The quality of generated waveforms metrics obtained for BigVGAN v2 24 kHz and BigVGAN models tested on MUSDB18-HQ music data.

图 3. 基于 MUSDB18-HQ 音乐数据的 BigVGAN v2 24 kHz 与 BigVGAN 模型结果对比。

此外,全新 BigVGAN v2 44 kHz 型号的音频质量可与开源高质量神经音频编解码器 Descript Audio Codec (.dac) 相媲美(图 4 和 5)。

The quality of generated waveforms metrics obtained for BigVGAN v2 44 kHz and Descript Audio Codec models tested on HiFi-TTS-dev speech data.

图 4. 使用 HiFi-TTS-dev 语音数据的 BigVGAN v2 44 kHz 与 Descript Audio Codec 结果对比。

The quality of generated waveforms metrics obtained for BigVGAN v2 44 kHz and Descript Audio Codec (DAC) models tested on MUSDB18-HQ music data.

图 5. BigVGAN v2 44 kHz 与使用 MUSDB18-HQ 音乐数据的 Descript Audio Codec 结果对比。

所有结果表明,所生成波形的质量与以下指标相关:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值