ICASSP 2019 | WaveGlow:用于语音合成的基于流的生成式网络

过去的语音波形生成模型,很多是自回归式的模型,生成速度慢。而非自回归一些模型如Parallel WaveNet和Clarinet,则需要两个网络:一个学生网络和一个老师网络。本文提出的WaveGlow不需要自回归的过程,只由一个网络构成,用一个损失函数进行训练,简单有效。

论文地址:
https://ieeexplore.ieee.org/document/8683143
代码地址:
https://github.com/NVIDIA/waveglow

引言

语音合成任务一般包括两个步骤:第一步是将文本变换为时间对齐的特征,例如梅尔谱、基频等;第二步是将时间对齐的特征变换成声音信号采样点。本文的工作主要关注第二步。
大多数基于神经网络的波形合成模型都是自回归式的,这些方法都无法使用GPU和TPU进行加速。非自回归的模型有Parallel WaveNet,Clarinet和MCNN。然而,这几个方法的实现都非常复杂,并且都组合使用了多种损失函数。训练这些模型的难度非常大。
本文提出基于流的生成模型用于语音波形合成WaveGlow。WaveGlow很容易实现和训练,只使用似然度作为损失函数。基于Pytorch的实现版本,在Nvidia V100 GPU上的生成速率可以达到500kHz。

数据集

本文的实验使用了LJ Speech语音数据集。这个数据集由13100句短语音组成,时长共计24小时。所有语音由同一名说话人录制,录制设备是Macbook Pro的内建麦克风。本文将所有语音信号重采样到22050kHz。
本文使用梅尔谱作为网络输入,生成梅尔谱时使用librosa工具包的默认梅尔滤波器。提取梅尔谱特征时,帧长设为1024,帧移设为256。

模型

模型结构

首先从简单的高斯分布中采样,将随机采样值通过神经网络进行变换,使变换后的采样点符合希望建模的分布。本文中,希望建模的分布是声音采样点以梅尔谱为条件的条件概率分布。

过去基于流模型的工作提出,只要神经网络的是可逆的,就可以通过最小化数据的负对数似然度来训练网络。当限制了神经网络的每一层都是双射,可以使用变量替换法则,将似然度表示如下:

其中,第一项是高斯分布的似然度,惩罚了变换后采样值的 l 2 l_{2} l2范数。 J J J代表雅可比矩阵,雅可比行列式可以奖励每层前向变换的过程中中增加空间的体积。
在前向的变换中,将8个声音采样值拼成一个向量,称为 squeeze 操作。然后将这些向量通过多层流模型。模型由可逆的1x1卷积和仿射耦合层组成,结构如下:
WaveGlow的模型结构

仿射耦合层

可逆的神经网络一般由耦合层组成。本文中使用了仿射耦合层,正向变换如下:

逆向变换可以表示如下:

其中 W N ( ) WN() WN()不需要是可逆变换, W N ( ) WN() WN()使用了类似WaveNet中带洞卷积的网络结构。
为了保证仿射耦合层的可逆性,在损失函数中加入惩罚项:

可逆1x1卷积

本文采用了类似Glow模型的结构,使用可逆1x1卷积混合通道间的信息,卷积核的参数进行正交初始化,保证可逆性。在训练过程中,通过将雅可比行列式加入损失函数,保持卷积的可逆性。

实验结果

音频质量

本文将WaveGlow与WaveNet和Griffin-Lim方法进行了比较。评分人根据主观听感,对生成的音频进行打分。在测评中,WaveGlow的MOS分数最高。
主观评分(MOS)

合成速度

Griffin-Lim配置为60次迭代,在Nvidia V100上合成速率可以达到507kHz。Parallel WaveNet的合成速率为 500 kHz。本文实现了Pytorch版本的WaveGlow,可以达到520kHz的速率。基于模型的计算复杂度进行估计,优化后的WaveGlow的合成速率上限为2000 KHz。

结论

WaveGlow可以高效地合成语音,并且模型简单,训练容易。因此,WaveGlow可以用于部署高质量的语音合成。



扫码识别关注,获取更多论文解读

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于Transformer的语音情感识别模型是指通过使用Transformer结构来对语音信号中的情感信息进行建模和识别的模型。 Transformer模型在语音情感识别领域取得了显著的成果,其多头自注意机制可以更有效地学习细粒度的特征,并减少模型的冗余度。 具体而言,这种基于Transformer的语音情感识别模型使用了一个可变形的Transformer结构,被称为DST(Deformable Speech Transformer)。DST模型通过一个轻量的决策网络来动态决定注意机制中的窗口大小,使模型能够根据输入语音的特性自适应地调整窗口的大小[3]。此外,DST还引入了与输入语音信号相关的偏移量,用于调整注意力窗口的位置,从而能够发现并关注到语音信号中有价值的情感信息。 DST模型的训练和评估可以按照以下步骤进行: 1. 模型部署:将语音识别接口封装为容器,以支持模型的部署。 2. 效果评估:使用WER(Word Error Rate)等指标对模型的识别准确率进行评估,并进行抽样人工校验结果。 3. 端到端语音识别:通过结合BERT语义建模和语音特征提取,实现整个语音识别过程的端到端建模。 通过以上步骤和DST模型的优化,可以获得在语音情感识别任务中表现良好的模型。这种基于Transformer的语音情感识别模型在实验中已经证明了其优越性,通过在IEMOCAP和MELD数据库上进行大量实验验证了其性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [ICASSP2023论文分享 | DST:基于Transformer的可变形语音情感识别模型](https://blog.csdn.net/weixin_48827824/article/details/129489782)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [基于BERT的端到端语音识别模型开发指南.pdf](https://download.csdn.net/download/weixin_50409347/88191642)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值