自用记录论文学习之语音增强

Implementation of low-latency electrolaryngeal speech enhancement based on multi-task CLDNN

第一章 语音增强之《基于多任务CLDNN的低延迟喉电语音增强实现》



前言

语音新手入门,学习读懂论文。本文作者机构是名古屋大学信息技术中心,日本名古屋kobayashi.kazuhiro@g.sp.m.is.nagoya-u.ac.jp
户田智树信息技术中心名古屋大学,日本名古屋tomoki@icts.nagoya-u.ac.jp


一、做了什么

提出了一种由卷积层、循环层和全连接层组成基于多任务CLDNN的低延迟喉电语音增强技术。为了解决传统双层循环的CLDNN的高延迟EL语音增强,在本文中,提出了具有单向循环层的多任务CLDNN,用于低延迟EL语音增强。此外,为了达到与双向CLDNN相当的性能,还提出了以下技术:1)知识蒸馏,2)数据增强和3)语音正则化。

二、动机

喉切技术是为了治疗喉癌切除包括声带在内的喉部的手术,患者可以使用电喉来代替,不过存在一些问题:喉电语音对强噪声的辐射和源激发的非自然声学特征。为了解决这个问题提出了噪声抑制和统计语音转换(VC)
噪声抑制是减少激励信号中噪声成分,但会产生音乐噪音,对EL语音的改进有限。
虽然EL语音可以产生相对清晰的语音,但由于机械激励信号的影响,喉头切除者的语音自然度质量下降
VC利用GMM将EL语音提取的声学特征转换为目标自然语音的声学特征。双向循环层要求整个话语不仅要考虑前向状态序列,还要考虑后向状态序列,造成开始说话后的长时间延迟。需要大量的计算成本,为每个声学特征单独训练单任务转换模型。

三、挑战

1.由于语音通信的双向循环层导致等待话语结束的高延迟,因此难以利用语音通信。

2.使用单向循环层要达到与双向循环层CLDNN相同的性能。

3.面对复杂的环境要具有鲁棒性

四、方法

1.模型图

!](https://img-blog.csdnimg.cn/4af3a3905da747278435d4eccf04a8fa.png)
语音通过梅尔到频之后送入CNN卷积网络和FC全连接层,通过基于整流线性单元的批归一化和激活函数进行平均池化。卷积层的隐藏输出被转换成基于单个全连接层的PPG向量。将输出进行基于PPG向量的网络参数正则化。得到Lppg,Lppg表示利用FC层输出和ASR系统从目标自然语音中提取的PPG向量计算的Kullback-Leibler散度损失函数。整个数据经过完整的单循环多任务的CLDNN模型得到训练结果,CLDNN将EL语音提取的梅尔倒频谱转换为U/V符号、连续F0、梅尔倒频谱和非周期。对这几项特征进行均方误差损失函数评估。
在这里插入图片描述
经过公式计算得到目标语音的损失函数。αpro是一个超参数,用于平衡音段特征和其他韵律特征之间的优化。

2.重生网络Born-again network

一种知识蒸馏技术,通过基于师生学习的多个预训练的单任务模型来训练多任务模型。在端到端自动语音识别(ASR)中,知识蒸馏技术从双向递归层转化为单向递归层来实现在线语音识别。提出了一种基于Uni-GRU的MT-CLDNN知识蒸馏技术,利用预训练的st - cldnn和Bi-GRU进行低延迟语音增强。
在这里插入图片描述
Lban表示ST-CLDNN输出与MT-CLDNN输出之间的损失函数。超参数α - ban衰减,利用基础真值控制师生学习与训练之间的平衡。

3.数据增强

对于低延迟的EL语音增强,重要的是系统不仅能在清洁条件下工作,而且能在噪声条件下工作。提出两种数据增强方式,一种是基于噪声注入的数据增强,另一种是基于SpecAugment的数据增强。对于噪声注入,我们简单地在输入的EL语音中施加几种噪声。对于SpecAugment,输入特征向量是基于随机选择的帧和每个时间和维度轴的维度长度进行掩码的。

4.语音后图的正则化

提出了一种基于PPG向量的网络参数正则化技术。在基于cldnn的语音增强中,卷积层主要负责从输入特征向量序列中提取上下文特征。通过正则化这些卷积层,期望卷积层的输出变得与语音特征相似。
在这里插入图片描述

五、实验评价

1.实验条件

使用120个日语句子。一名电疗组患者和一名健康的日语男性演讲者分别说出了英语和正常语言。由于使用少量的训练数据来实现EL语音增强对于减少EL语音记录的负担非常重要,因此将训练和发展语音的数量分别设置为54和6。帧和移码大小分别设置为25ms和5ms。另外60个话语被用于评价。对于第一卷积层的输入,通过连接7个前特征向量和3个后特征向量来扩展一维特征向量,得到11 × 25个二维特征矩阵。进行了3 × 3核的二维卷积。然后,通过基于整流线性单元的批归一化和激活函数进行平均池化。我们堆叠了两个卷积层,分别具有1和3个膨胀的时间轴。第一层的输出通道数为32,第二层的输出通道数为64。在RNN层中,参数大小相同的Uni-GRU和Bi-GRU的隐藏层数分别设置为2和1。隐藏单元数设置为256。

超参数αpro和αppg分别设为0.1和10。α - ban随时间线性衰减从1到0逐渐变化。我们使用随机梯度下降作为优化器。学习率设为0.2。epoch的数量被设置为100。其他设置参照[20]。

对于SpecAugment,我们将时间和维度遮罩的大小分别设置为1到100和1到5。根据每个小批量中的均匀分布,从这些值中随机选择掩模大小。对于噪声注入(noise),我们准备了三种环境噪声,分别记录在餐厅、实验室和会议室。这些噪声分别施加于15、20和25 dB信噪比的训练EL语音上。在每个小批量中以等概率随机选择干净的EL和噪声增强的EL演讲。对于PPG正则化,我们使用了由我们内部实现的CLDNN提取的166维PPG向量,使用Kaldi工具包中的“csj”配方。我们没有使用任何上下文标签来提取PPG向量。
我们将含有Uni- gru的MT-CLDNN表示为“Uni”,将含有Bi- gru的MTCLDNN表示为“Bi”,将含有UniGRU、SpecAugment、Noise和PPG的MT-CLDNN表示为“Uni + Mix”。

2.MT-CLDNN的转换延迟

转换延迟表示输入EL语音和输出增强语音之间的时间间隔。在所提出的MT-CLDNN中,特征提取、卷积层、声码器波形生成等几个模块都会导致算法延迟。对于特征提取,为了在参数化到倒谱之前估计输入EL语音的频谱,需要等待一半的帧大小来存储波形样本进行加窗。对于卷积层,我们确认在我们的内部评估中,大量的后续帧有助于提高转换精度。为了平衡转换精度和延迟,我们将后续帧数设置为3帧,它会导致3帧的延迟。对于语音编码过程,为了在当前帧和下一帧之间插入梅尔倒谱来执行MLSA滤波,会导致一帧的延迟。基于这些算法延迟,所提出的低延迟MT-CLDNN的最终延迟为32.5ms(特征提取12.5ms,卷积层15ms,声码器5ms) 。注意,每帧从特征提取到波形生成的所有过程必须在5ms内完成,因为移码大小被设置为5ms。在此计算中,我们忽略了音频输入/输出的延迟。

3.客观评价

比较了基于均方根误差(RMSE)、相关系数和倒谱失真(Mel-CD)的转换声学特征的客观测量。

在这里插入图片描述
在这里插入图片描述
表1显示了清洁条件下几种客观测量的结果。我们可以看到在BAN, Noise和SpecAugment方面几乎没有改进。另一方面,通过使用PPG正则化,我们可以看到,在单向和双向模型中,所有客观度量都有很大的改进。
表2显示了噪声条件下几种客观测量的结果。我们可以看到,“Uni + Mix”方法优于“Uni”和“Bi”方法。

在这里插入图片描述
显示了几个转换后的声音的频谱图。可以看到EL的谐波成分是固定的。另一方面,所提出的EL语音增强技术的谐波成分与正常语音的谐波成分略有相似。

4.主观评价

在这里插入图片描述
在这里插入图片描述
增强的语音样本按随机顺序呈现给被试。受试者用五分制对演讲的自然程度和可懂度进行评分,其中“5”代表优秀,“4”代表良好,“3”代表一般,“2”代表差,“1”代表非常差。每个主题的评价中使用的句子数为114。
在清洁的条件下,我们可以看到,所有方法之间没有明显的差异。另一方面,在噪声条件下,“Uni + Mix”的方法使自然度的提高成为可能。图4为增强语音感知语音可理解度的实验结果。在清洁的条件下,所有的方法几乎是相互比较的。另一方面,“Uni + Mix”方法在噪声条件下比其他方法产生更好的性能。
从这些结果可以看出,在保持参数大小不变的情况下,“Uni + Mix”方法在噪声条件下的性能优于“Uni”方法,但在清洁条件下的主观结果没有改善。假设虽然客观度量得到了改进,但由于单向循环层的建模能力较差,仍然难以产生自然韵律特征。


六、结论

在本文中,提出了一种基于卷积层、单向循环层和全连接层组成的多任务CLDNN的低延迟喉电语音增强技术。此外,为了提高单向建模的性能,我们提出了知识蒸馏、数据增强和语音正则化等技术。客观和主观评价的结果表明,即使在清洁条件下使用单向建模,所提出的方法也可以达到相当的性能。此外,该方法在噪声条件下具有更好的自然度和感知语音可理解性。在未来的工作中,我们计划将神经声码器整合到EL语音的低延迟语音增强中。

七、知识小结

CLDNN:
同时使用卷积(Convolution)结构,循环(Recurrent)结构,与全连接(Fully-Connected)结构构建神经网络模型

在这里插入图片描述
倒谱(cepstrum)就是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱(两次FFT运算)。

SpecAugment技术:一种数据增强技术。通过扭曲时域信号,掩盖频域通道,和掩盖时域通道,修改了频谱图。这种增强方式可以用来增加网络的鲁棒性,来对抗时域上的变形,频域上的部分片段损失。

重生网络:包括将知识从一个机器学习模型(教师模型)迁移到另一个机器学习模型(学生模型)

Kaldi工具包:它使用WFST来实现解码算法。

语音后验图特征(phonetic posteriorgrams)(语音后验概率)PPG:是一个时间对类别的矩阵,其表示对于一个话语的每个特定时间帧,每个语音类别的后验概率。单个音素的后验概率作为时间的函数称为后验轨迹。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值