本文的作者是XUE HAN, MINGYANG PAN, ZHENGZHONG LI, HAIPENG GE, ZONGYING LIU XUE HAN, MINGYANG PAN, ZHENGZHONG LI, HAIPENG GE, ZONGYING LIU 。
研究动机
海事上面高频域上的语音质量比较差,为了提高海事方面对应的语音质量提出了一种解决高频域上 语音质量不好的方法,这种网络叫做VHFSE,用了Trasformer,因为Transformer用到了注意力机制,注意力机制注重的是全局的视野,所以为了能够观察局部视野,网络也用到了卷积,并且为了减少参数和计算量,用到深度卷积等等并不传统的卷积。
INTRODUCTION
这篇论文是为了解决海事领域上面的高频域上出现的问题所提出来的,受干扰的VHF交流会影响VTS(nvessel traffffic service)和机长,VHF很容易受到许多未知干扰的攻击,因此,VHF不仅具有相同类型的噪声,而且还具有特殊时期的短期噪声,VHF也可以帮助语音识别等等工作。
本文的网络用的是有Transformer的结构,使用的注意力机制,解决了RNN的长期依赖问题,也解决了梯度消失和梯度爆炸的问题,为了使用局部特征,用到了CNN,为了减小参数量,使用了深度卷积,以下是网络的结构图:
网络总共有四个部分,块内是局部信息,块间是把局部信息整合使其获得全局信息。
下图最左边的是基准模型,右边是本文的模型,是基于左边的模型更改的。注意力机制的输入三个Q、K、V是输入的相关矩阵。
算法如何工作的是下图:
实验选用的数据是一个开源的汉语语料库,AISHELL,17小时用于训练集,1.5小时用于测试集,噪声集有30种,25种用于训练集,5种用于测试集。按照0,5,10分贝的信噪比合成。另外,还生成了一个叫做VHFvoice的数据集,是从海事场景上面获得的,25分钟时长,采样率为16000赫兹,只有带噪的声音。
损失函数时域和频域上的结合,评价的指标是PESQ,STOI,范围为[-0.5,4.5],[0,1]。
实验结果如下:
从实验结果看出,指标都有提升,所用到的增强的平均时间还可以吧。