SLT2021: IMPROVED PARALLEL WAVEGAN VOCODER WITH PERCEPTUALLY WEIGHTED SPECTROGRAM LOSS

0. 题目

IMPROVED PARALLEL WAVEGAN VOCODER WITH PERCEPTUALLY WEIGHTED SPECTROGRAM LOSS

改进的PARALLEL-WaveGAN声码器: 通过直观的加权的频谱Loss

1. 摘要

本文提出了一种基于并行-WaveGAN的文本语音转换(TTS)系统的频谱域感知加权技术。 最近提出的Parallel WaveGAN声码器使用快速的非自回归WaveNet模型成功生成了波形序列。 通过使用具有生成对抗网络的多分辨率短时傅立叶变换(MR-STFT)标准,可以有效地训练轻型卷积网络,而无需任何知识蒸馏过程。 为了进一步提高声码编码的准确性能力,我们提出将频率加权应用于MR-STFT损失函数。 所提出的方法在频域中惩罚了感知敏感的误差, 优化模型以减少合成语音中的听觉噪声。 主观听力测试结果表明,我们提出的方法分别针对韩国男性和女性说话者获得了4.21和4.26 TTS平均意见得分

关键词: Text-to-speech, speech synthesis, neural vocoder, Parallel WaveGAN

文字转语音,语音合成,神经声码器,并行WaveGAN

2. 简介

原始语音波形的生成模型已显着提高了神经文本语音转换(TTS)系统的质量[1、2]。 具体来说,诸如WaveNet之类的自回归生成模型已成功取代了传统的参数声码器的作用[2-5]。 非自回归版本,包括并行WaveNet,提供了一种基于师生框架的快速波形生成方法[6,7]。 在这种方法中,模型是使用概率密度蒸馏方法训练的,其中将自回归教师WaveNet的知识转移到逆自回归流学生模型中[8]

 

在我们之前的工作中,我们将生成对抗网络训练方法引入并行WaveNet框架[9],并通过将对抗训练与多分辨率短时傅立叶变换(MR-STFT)标准相结合提出了并行WaveGAN [10]。 ,11]。 尽管仅通过使用对抗损失函数就可以训练基于GAN的非自回归模型,但已证明采用MRSTFT损失函数对于提高训练效率是有利的[10、13、14]。 此外,由于并行WaveGAN仅训练WaveNet模型而没有任何密度蒸馏,因此整个训练过程变得比传统方法容易得多,并且该模型仅用少量参数可以生成自然的语音波形

 

为了进一步提高并行WaveGAN的性能,本文提出了一种频谱域感知加权方法来优化MR-STFT标准。 一个与频率相关的掩蔽滤波器被设计用来惩罚对人耳感知敏感的频谱谷附近的误差[15]。 通过在训练步骤中将此滤波器应用于STFT损失函数计算,可以指导网络减少那些区域中的噪声分量。 因此,与原始的Parallel WaveGAN相比,所提出的模型产生的声音更自然

 

我们的贡献可以总结如下:

  • 我们提出了一种感知加权MR-STFT损失函数以及传统的对抗训练方法。 这种方法提高了基于并行WaveGAN的神经TTS系统中合成语音的质量
  • 由于所提出的方法不会改变网络架构,因此它保留了原始Parallel WaveGAN中的少量参数,并保持了快速的推理速度。 特别是,在具有1.83 M参数的单个GPU环境中,该系统生成的24 kHz语音波形比实时速度快50.57倍
  • 我们的方法在神经TTS系统中分别针对韩国男性和女性说话者的平均意见得分(MOS)结果为4.21和4.26

3. 其他-容易懂

使用基于STFT的损失函数的想法并不新鲜。 在他们对频谱图反演的研究中,Sercan等人。 [16]首先提出了频谱收敛性和对数尺度STFT幅度损失,而我们先前的工作提出了以多分辨率形式对它们进行组合[9]。 此外,感知噪声整形滤波器在自回归WaveNet框架中显着提高了合成语音的质量[17]。 根据人类听觉系统的特征,设计了一个外部噪声整形滤波器,以减少频谱谷区域中的感知敏感噪声。 该过滤器在训练步骤中充当预处理器; 因此,WaveNet了解了噪声形残留信号的分布。 在合成步骤中,通过将其逆滤波器应用于WaveNet的输出,可以重建增强的语音

 

但是,事实证明,过滤器的有效性 不适用于非自回归生成模型,包括WaveGlow [18]和Parallel WaveGAN。 造成这种情况的一个可能原因可能是,如果没有先前的时间步长信息,非自回归模型很难捕获噪声整形残留信号的特性。 为了解决这个问题,提出的系统将频率相关的掩码应用于计算STFT损失函数的过程。 由于此方法不会改变目标语音的分布,因此可以稳定地优化非自回归WaveNet,同时显着减少听觉噪声成分

 

Fig.1 计算光谱收敛时获得的幅度距离(MD):(a)光谱掩模的权重矩阵,(b)涂覆掩模之前的MD(常规方法),以及(c)涂覆掩模之后的MD(建议方法)

4. 其他-不容易懂

其中,Wt,f表示频谱掩模的权重系数。 通过沿时间轴重复一个时不变频率掩蔽滤波器来构造权重矩阵W,其传递函数定义如下

其中〜αk表示第k个线性预测(LP)系数,其阶数为p,是通过对从训练数据中提取的所有频谱进行平均而获得的。 如图1a所示,光谱模板的权重矩阵被设计为代表光谱共振峰结构的整体特征。 这样可以重点放在对人耳更为敏感的频谱谷频率区域的损耗。 在计算STFT损耗时(图1b),该滤波器用于惩罚那些区域中的损耗(图1c)。 结果,训练过程可以指导模型进一步降低合成语音中的感知噪声1

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
slt618-2021是指2021年SLT618这个事件。SLT618是一种信号灯技术,用于车辆交通控制。在2021年,许多城市采用了先进的SLT618信号灯系统来提高交通效率和道路安全。 SLT618信号灯技术是一种基于智能控制算法的车辆信号灯系统。它可以通过实时监测和分析路况数据,智能地调整红绿灯的信号时长,以适应不同路段的交通流量。这样,交通信号灯可以更加合理地分配绿灯时间,降低交通拥堵和等待时间。 在2021年,许多城市将SLT618信号灯技术应用于主要道路和交通繁忙的路口。由于SLT618系统的效率和准确性,它帮助降低了车辆排放的二氧化碳和燃料消耗,对城市环境产生了积极的影响。 与传统的定时信号灯相比,SLT618系统可以根据路况实时调整信号灯的时长,避免了交通流量过大或过小导致的交通拥堵。这大大减少了行车时间和排队时间,提高了道路的通行能力和效率。 同时,SLT618系统还能够提高行人的安全。它可以根据行人的实时需求调整信号灯时间,确保行人的安全通行。这对于繁忙的城市交叉口来说尤为重要,能够减少行人事故的发生率。 总之,SLT618-2021代表了201年SLT618信号灯技术的应用。在过去的一年里,SLT618系统通过智能控制算法和实时数据分析提高了交通效率和道路安全,对于城市交通管理和环境改善产生了积极的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值