Parallel WaveGan论文和代码笔记

最新推荐文章于 2024-03-26 09:47:26 发布

崔西的梅尔之旅

最新推荐文章于 2024-03-26 09:47:26 发布

阅读量1.4k

点赞数

分类专栏：声码器生成模型文章标签：人工智能音频

本文链接：https://blog.csdn.net/qq_32766309/article/details/124123466

版权

声码器生成模型专栏收录该内容

2 篇文章 0 订阅

订阅专栏

PARALLEL WAVEGAN笔记目录

一、论文思想
二、网络结构
三、实现细节
四、实验结果
- 4.1 本论文实验结果
- 4.2 VOCBENCH实验对比
【相关工作】
- 1 因果卷积
- 2 扩展卷积

来源： 2020 ICASSP
机构： 日本line，韩国naver
论文地址： https://arxiv.org/abs/1910.11480
源码地址： https://github.com/kan-bayashi/ParallelWaveGAN

一、论文思想

PARALLEL WAVEGAN（以下都简称PWG）是一种非常快速和轻量的声码器模型。
PWG的主要思想就是采用了多重分辨率STFT损失函数和对抗损失结合的损失去训练生成器。

二、网络结构

2.1 整体结构

由下图所示，PWG由一个生成器和一个判别器组成。
请添加图片描述

2.1.1 生成器损失

整体损失为STFT loss和adversarial loss之和
$L_{G}(G,D)=L_{aux}(G) + \lambda_{adv}L_{adv}(G,D)$

gen_loss += self.config["lambda_adv"] * adv_loss

>STFT LOSS
输入预测的波形序列与真实的波形序列通过不同的stft loss计算多重分辨率损失。STFT损失分为两个部分，分别为频谱收敛损失sc和对数幅度谱损失mag
$L_{sc}(x, \widehat{x}) = \frac{\Vert \vert STFT(x)\vert-\vert STFT(\widehat{x})\vert \Vert_F}{\Vert \vert STFT(x)\vert \Vert_F}$
$L_{mag}(x,\widehat{x})=\frac{1}{N}\Vert log\vert STFT(X)\vert-log\vert STFT(\widehat{x})\vert\Vert_1$
$L_{s}(G) = E_{z\sim p(z),x\sim p_{data}}[L_{sc}(x, \widehat{x}) + L_{mag}(x,\widehat{x})]$
在具体的实现中，将每一个STFT损失的两个部分分别进行累加，然后除以STFT损失的个数。

for f in self.stft_losses:
    sc_l, mag_l = f(x, y)
    sc_loss += sc_l
    mag_loss += mag_l
sc_loss /= len(self.stft_losses)
mag_loss /= len(self.stft_losses)

将sc和mag相加就得到了生成损失。

gen_loss += sc_loss + mag_loss
gen_loss *= self.config.get("lambda_aux", 1.0)

>adversarial loss
预测的波形输入判别器，然后计算MSE损失
$L_{adv}(G,D)=E_{z\sim N(0,I)}[(1-D(G(z)))^{2}]$

p_ = self.model["discriminator"](y_)#y_为生成器预测的波形
adv_loss = F.mse_loss(p_, p_.new_ones(p_.size()))
self.total_train_loss["train/adversarial_loss"] += adv_loss.item()

2.1.2 判别器损失

判别器输入生成器预测的波形序列和真实的波形序列，分别通过均方损失(MSE) 得到discriminator loss中的real loss和feak loss。
$L_{D}(G,D)=E_{x\sim p_{data}}[(1-D(X))^{2}]+E_{z\sim N(0,I)}[(D(G(z)))^{2}]$

p = self.model["discriminator"](y) #y是真实波形
p_ = self.model["discriminator"](y_.detach()) #y_是预测波形
real_loss = F.mse_loss(p, p.new_ones(p.size()))
fake_loss = F.mse_loss(p_, p_.new_zeros(p_.size()))
dis_loss = real_loss + fake_loss

2.2 生成器结构（Generator）

输入： 随机噪声和辅助特征（辅助特征为梅尔，能将随机噪声并行的转换为输出波形）
随机噪声的size与判别器输入的音频的size一致。

# make input noise signal batch tensor
if self.use_noise_input:
    z_batch = torch.randn(y_batch.size())  # (B, 1, T)
    return (z_batch, c_batch), y_batch
else:
    return (c_batch,), y_batch

网络： 主体采用wavenet的网络结构，与传统的wavenet不同的地方有——

采用非因果卷积代替因果卷积（见6.1）。
输入之一为来自高斯分布的随机噪声。
模型在训练和推理阶段都是非自回归的。

主体网络由30层dilated residual convolution块组成，以指数方式增加三个dilation cycles。
残差通道数和skip通道数为64个，卷积滤波器大小为3个。

 def forward(self, x, c):
	 # x是噪声， c是梅尔
	 if c is not None and self.upsample_net is not None:
	     c = self.upsample_net(c)
	     assert c.size(-1) == x.size(-1)
	
	 # encode to hidden representation
	 x = self.first_conv(x)
	 skips = 0
	 for f in self.conv_layers: #30层
	     x, h = f(x, c)
	     skips += h
	 skips *= math.sqrt(1.0 / len(self.conv_layers))
	
	 # apply final layers
	 x = skips
	 for f in self.last_conv_layers:
	     x = f(x)
	 return x