《Noisy-target Training: A Training Strategy forDNN-based Speech Enhancementwithout Clean Speech》论文阅读

qq_46079584

已于 2022-02-10 18:32:06 修改

阅读量1.4k

点赞数

文章标签：其他音视频

于 2022-02-07 19:47:40 首次发布

本文链接：https://blog.csdn.net/qq_46079584/article/details/122812958

版权

本文的作者是Takuya Fujimura , Yuma Koizumi, Kohei Yatabe , Ryoichi Miyazaki，National Institute of Technology, Tokuyama College, Yamaguchi, Japan。

研究动机

传统的深度学习的数据类型是纯净语音作为学习的目标，输入到网络中的是带噪语音。这样会存在数据不够的缺点，因为纯净语音会受到麦克风距离远近，环境噪音等的影响很难得到，所以收集纯净语音是花费巨大并且耗时。本文为了不用纯净语音做训练，提出一种策略是选择用带噪语音再加噪的方式进行训练，全程没有用到纯净语音，所以克服了收集数据的限制。

INTRODUCTION

纯净语音作为学习目标的训练方式有两种弊端，第一，收集音频信号花费巨大并且耗时。第二，收集音频的环境是不断变化的，会受到环境噪声的影响。

本文主要说了三种训练方式。第一种就是最为熟知的纯净语音作为目标，输入带噪语音去训练网络，用网络中产生的输出和目标信号做损失回传来优化网络的一种方式；第二种是选择两种不同的噪声类型和一种纯净语音，用其中一种噪声和纯净语音混合得到带噪音频送入网络，用另一种噪声类型和纯净语音混合得到带噪音频作为学习的目标，网络产生的带噪音频的输出和学习目标的带噪语音做损失回传来优化网络，这种其实已经在减少纯净语音的使用了，因为一种纯净语音混合了两种噪声，这种训练方式最开始是在图像方面，用到音频，因为音频是动态的，会受到噪声类型的影响，图像的话，本身是静态的，加了不管了是白噪声还是高斯噪声等等，短时间曝光就可以，但是音频不是这么容易获取的。第三种就是本文提到的方式，全程没有用到纯净语音，网络学习的目标就是带噪语音，输入到网络中去的是带噪语音在额外加一种噪声，网络的目标就是把这种额外加的噪声去除掉，得到的仍旧是带噪的语音，网络的输出和目标语音做损失回传优化网络。

网络结构

网络结构本论文中没有给出来，只给了三种训练方式的图片。使用了文献[4]的网络。

实验

做了三种类型的实验，第一种就是概念上的验证一下，看看是否真的能够在没有纯净语音参与的情况下训练出网络来，这个实验中，训练集和测试集用的是同一种数据集。为了对比。所用的数据集，第二个小实验是测试集用的和训练集不是同一个数据集下的，所以也可以测出在看得见的带噪和看不见的带噪的条件下网络的效果，实验结果如图（虽然它的效果没有前两种方式的好，但是实验确实证明在没有纯净语音参与的条件下，也是可以训练出增强网络的。在训练集和测试集不一致的情况下，发现三种网络的指标差不多了，说明在看不见的情况下网络的性能要好一点，并且这种情况更加符合现实环境。）：

第二个实验是想验证一下本文提出的训练方式中带噪目标信号的信噪比会不会影响性能，因为当带噪信号的信噪比趋于无穷时，就可以等同于纯净语音，也就是第一种的训练方式，所以采用的信噪比是-5，0，5，10，15，20分贝（横坐标表示的就是带噪的目标语音，纵坐标表示的是网络的性能，以SI-SDR为例），数据集仍然是用的同一种数据集。结果可以看到，在0分贝以下的时候，没有什么提高，在15分贝以上时，提高的比较明显。

第三个实验是网络中的额外噪声的类型会不会影响网络。选用了VOICEBANK-DEMAND的数据集和四种不同的额外噪声集来进行训练，指标就是用的SI-SDR和PESQ来检测，测试集用的是TIMIT-NOISE-92，训练集和测试集的额外噪声类型不一样，实验结果如图（发现前三种的噪声基本上都有重合，说明它们很相似，而第四种很容易分辨出来，越相似的噪声送入网络训练出来的效果会更好。自己个人认为因为本身的带噪数据里面的噪声和额外附加的噪声类型如果很相似的话，证明网络学习的时候，会把相似的噪声归为一类，这样的话，学出来就会比较高效。）：下面那张彩色的图是有五种颜色的，其中黄色代表的是带噪语音里面的噪声，其他四种代表的是额外附加的噪声，这张彩色图是根据选取了1000个样本，然后通过计算什么的得到的，从图片中可以看出，红色的和别的声音都没有重叠，所以说嘛红色的和其他噪声类型不一样，这样的话，在测试的时候，红色的是比较好去除的，而剩下的三种噪声和带噪语音里面的包含的噪声类型很相似，所以在训练的过程中，网络用这三种噪声会学出比较好的效果（因为训练的时候，和带噪语音里面的噪声比较相似，这样的话，网络学习的目标就是从带噪语音在额外附加噪声的条件下学习带噪的目标语音，所以如果附加的噪声和目标语音里的噪声很类似的话，网络就可以不怎么去除这种就可以判定为是目标噪声，所以这种训练的效果就会比较好）。

qq_46079584

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫