speech bandwidth extension using generative adversarial networks

最新推荐文章于 2025-03-20 10:42:24 发布

凌逆战

最新推荐文章于 2025-03-20 10:42:24 发布

阅读量782

点赞数 1

CSDN的所有文章均转载自我博客园的文章，由于存在转载丢失，想了解细节，可访问我的博客园。 https://www.cnblogs.com/LXP-Never/

本文链接：https://blog.csdn.net/qq_34218078/article/details/85013948

版权

论文下载地址。

摘要

语音盲带宽扩展技术已经出现了一段时间，但到目前为止还没有出现广泛的部署，部分原因是增加的带宽伴随着附加的工件。本文提出了三代盲带宽扩展技术，从矢量量化映射到高斯混合模型，再到基于生成对抗性网络的深层神经网络的最新体系结构。这种最新的方法在质量上有了很大的提高，并证明了基于机器学习的盲带宽扩展算法在客观上和主观上都能达到与宽带编解码器相当的质量。我们相信，盲带宽扩展现在可以达到足够高的质量，以保证在现有的电信网络中部署。

关键词：指标术语-盲带宽扩展，人工带宽扩展，生成对抗性网络，客观质量评价，主观质量评价，POLQA

一、引言

　　直到几年前，语音通信的质量一直受到100多年前的设计选择的限制，这导致了8 kHz采样率实际频率使用范围为300-3400 Hz。这种所谓的窄带(Nb)频率范围严重限制了语音质量。最近业界已开始转向“高清声音”和“超高清声音”-分别使用宽带(WB)或超宽带(SWB)编码器，其采样率分别为16 kHz或32 kHz，分别对应于50-7000 Hz或50-14000 Hz的频率范围[1][2]。

　　然而，WB和SWB部署并不普遍，因为开发、测试和部署支持服务可能需要大量的成本。此外，端到端的WB/SWB呼叫需要在两端升级设备.要达到全面覆盖和手机普及率，可能需要数年的时间，而将固定电话网络升级到WB/SWB可能需要更长的时间。在此之前，很大一部分呼叫仍将使用遗留窄带。

　　盲带宽扩展（BBE）技术就是通过将NB语音转换为WB或SWB语音来解决这个问题。在本文中，我们将只关注于WB的情况，以便于简化。

二、背景

2.1 相关工作

　　已经提出了各种统计方法来预测4-8Hz的语音部分，通常称为高频段(Hb)，从0-4 kHz部分预测，称为低能带(Lb)。通常，使用某种形式的谱折叠或统计建模来产生具有宽带语音[3][4]一般特征的信号。虽然不能期望完美的预测，但可以获得合理的高质量的语音。

　　矢量量化(VQ)码本映射可以用来创建语音参数从lb到HB[5][6]的离散映射。采用基于高斯混合模型(GMM)的方法，通过对语音包络参数的连续建模，保持了lb和hb之间更精确的转换。隐马尔可夫模型(HMM)通过利用语音时态信息来扩展gmms[8]。基于神经网络的方法，如深神经网络，已经被提出，因为他们知道更好地建模高度非线性的问题[9]。

2.2 损失函数(Loss)与GANs

　　本文所讨论的统计模型都是基于回归问题中最基本的损失函数-均方误差(MSE)，它测量了Hb语音包络参数在预测和地面真实之间的差异。MSE损失函数在一般意义上工作良好，但难以处理恢复缺失语音HB时固有的不确定性，如详细的光谱形状和浊音/清音能量动力学。最小化MSE会鼓励找出看似合理的解的参数平均值，这些解通常过于光滑，因而具有较差的感知质量。

　　GANS已在[10]中引入，并已成功地应用于图像处理领域，如图像到图像的翻译[11]、图像的超分辨率[12]和文本到图像的合成[13]。GaN训练过程鼓励重建向搜索空间的区域移动，具有包含真实HB语音参数分布的高概率，从而接近自然语音Hb流形[12]。在这篇文章中，我们研究了甘斯如何帮助培。

三、BBE框架

一般情况下，培框架是建立在经典的源滤波器语音产生模型的基础上的。利用该模型，窄带语音信号的宽带扩展可分为两个子任务：

高频谱包络的估计
窄带激励信号的扩展

为了合成HB语音信号，我们利用evrc-WB[14]中的HB模型.图一显示了我们的培框架的总体图。

3.1 高频段激励

　　HB激发是通过一个非线性函数由nb激励导出的，该函数产生保持信号谐波结构的高频段激励[14]。

3.2 高波段光谱包络

　　在我们的语音HB扩展模型中，对于每20ms的语音帧，使用六阶谱线谱频率(Lsf)对HB进行频谱化，并给出了对应于lb和HB之间能量比的增益因子[14]。

3.3 框架验证

　　对该框架进行了测试，验证了从原始WB语音中提取HB参数时所提供的质量不低于Amr-WB 12.65kbps的客观和主观性能。由于培通常达不到12.65kbps的amrb12.65kbps质量，因此框架并不是一个性能瓶颈。该框架还用于evrc-WB和高通专有的eamr WB编解码器[16]。

四、HB参数预测

4.1 语音参数

Input	Output
10阶低频LSFs + Delta LSFs	6阶高频的LSF
4kHz语音能量	4-8kHz语音能量

表一：预测器输入输出参数

在我们的HB预测实验中使用的参数列于表1。Lb lsfs的后向三角洲用于改进预测，而不需要额外的延迟。

4.2.最小均方误差的统计建模

4.2.1.VQ码本映射

　　最基本的方法是码本映射。从宽带语音中提取lb和hb语音包络参数，并进一步使用诸如k均值的聚类方法来训练VQ码本。在估计阶段，将接收到的窄带参数与码本中的lb包络参数项进行比较，然后选择最接近接收到的窄带包络参数的条目。与所选条目对应的HB包络参数用作HB谱包络参数[5]。在实践中，最近的码本条目被内插，加权于它们的lb包络参数和接收到的窄带包络参数之间的距离[6]。

4.2.2.高斯混合模型(GMM)

　　与码本映射相比，GMM可以连续地对语音包络数据进行建模，从而实现软聚类。训练使用期望最大化(Em)和最大似然估计(MLE)进行[7]。该概率框架在训练过程中引入状态转移概率矩阵，灵活地融合了语音时态信息，将模型转化为GMM/HMM混合模型。增加隐马尔可夫(HMM)分量的主要好处在于它可以隐式地利用先前语音帧中的信息来提高估计精度[8]。文[7]详细讨论了Lb参数到HB参数的混合均值和协方差矩阵的变形技术。

4.3.用GANS进行统计建模

4.3.1.生成对抗性网络框架

图2: BBE-GAN 框架

　　GAN[10]包括发生器(G)和鉴别器(D)，如图2所示。这里，对于我们的BBEGAN系统，G是一个深度神经网络，它根据LB参数预测HB参数。D是另一个用作二进制分类器的深层神经网络，它试图区分预测HB参数和自然HB语音参数。

　　在对抗性训练中，g试图通过调整其重量和偏差来愚弄d，从而使d相信它的输出是自然的。D和g是迭代训练的，它们都试图击败对方。这种方法导致g生成与自然数据相同分布的输出，因此可以生成更自然的语音。

4.3.2.带MSE损失的预训练

　　深神经网络已经被应用于培问题，使用MSE损失，例如在[9]。我们以这样一个模型作为起点。这里，用标准的MSE损耗对Hblsfs和能量的四层发电机进行了预训练.这一训练前阶段是至关重要的，使GaN训练过程从一个良好的初始发电机开始，这有助于避免不稳定的问题。

4.3.3.知觉损失函数

　　感知损耗函数?的定义对发电机网络的性能起着至关重要的作用。在SRGAN[12]中的感知损失函数设计的启发下，我们将Hb语音包络参数域$l{params}$与对抗性损失$l_{adv}$结合起来，将感知损失作为加权和，如式(1)所示。

$$l = l_{params}+10^{-2}*l_{adv}$$

5. 实验

5.1 开始

　　我们以NTT 1994多语言语料库[17]为训练和验证数据，采用10倍交叉验证方案，进行了语音带宽扩展实验。数据以16 kHz采样率采样，数字化为16位分辨率，采用ITU-TP.341兼容滤波器模拟典型的TX手机响应。我们使用itu-t p.501英国英语[18]作为评估数据集。

　　对于BBE-VQ，我们使用单独的256元素VQ码本来处理Hb lsfs和增益.三个最近的候选人的加权组合用于预测。

　　对于BBE-GMM，我们使用了一个GMM HMM混合模型，该混合模型有64个状态，每个状态有4个混合状态，并且具有完全的协方差矩阵。该算法采用Viterbi译码算法的前向路径，不需要前瞻时延。

　　对于BBE-GAN，发生器和鉴别器都是四层前馈(1层输入层、1层输出层、2层隐层)，每个隐层有1024个神经元.ADAM优化器在培训期间使用。

　　图3和图4显示了在迭代0、100和200的对抗训练过程中典型有声段和无声段的频谱包络。我们可以清楚地看到，随着损失函数的远离MSE，BBE-GAN输出正朝着参考WB语音的频谱移动。GAN培训过程是提高无声段的能量，同时清除无声段期间不需要的HB噪声。这导致语音质量显著提高，具有较少的可听伪影和更高的自然度。

图3：语音输出与GAN迭代

图4：无声语音输出与GAN迭代

5.2 客观表现

　　对于客观评价，我们遵循了[19]中描述的方法，并在ITU-tp补编中进行了定义。27[20]。为了满足带宽需求，我们以ITU-T-501英国英语语音材料为输入，分别测量了3 GPP RX掩码[21]的RX频率响应。在语音质量方面，我们用P.501英式英语测试POLQA[22]的输出分数，用Amr 12.2kbps编码。

　　我们为BBE算法绘制了POLQA分数以上讨论。AMR-NB的评分为12.2kbps，和AMR-WB在8.85kbps和12.65kbps时显示为参考文献。结果如图5所示，其中0dB指示响应遵循掩码的下限。从BBE-VQ到BBE-GMM都有明显的改进BBE-GAN，显示了所使用的统计模型的不断增强的建模能力。在迭代0处的GAN与GAN之间在迭代200（完全训练）处，最大POLQA值类似的，但是BBE-GAN在200次迭代时也是这样以更高的数量更好地保持其POLQA得分带宽。这是预测质量的良好指示，并且通过减少来自完全训练的GAN的预测伪影。

图5：POLQA mos-lqo vs带宽

5.3.主观表现

　　采用ITU-T-P.800方法对本文提出的各种算法的主观性能进行了评价.一个退化等级(DCR)[23]测试是在一个独立的测试实验室进行的。测试使用了32个侦听器、42个条件和每个条件下192张选票。DCR测试的结果如图6所示，误差条表示95%的置信区间。分数与图5所示的客观结果一致。

图6：3 GPP掩模水平的P.800 DCR MOS-LQS

　　在8.85kbps时BBE-GAN与AMR-WB在统计上等价。在[19]中可以找到更多关于BBE-VQ和BBE-GMM的测试结果（其中它们分别对应于算法BBE3和BBE4）

5.4 Hb衰减与主观品质

　　我们应用了几个滤波器对培-GaN，以调整Hb水平从5db到-10 dB相对于3 GPP WB RX掩膜。图7显示了这些条件的p.800DCR分数。注意，如图5所示，该级别相对于下掩码限制，因此-5db表示低于掩码下限的响应，而5db表示掩码的上限和下限之间的响应。

图7：DCR MOS vs bandwidth

我们观察到，如图5所示的客观度量结果所预测的那样，培-GaN即使在更高的带宽水平上也能保持性能。这也说明了在带宽和质量上与WB编解码器完全相当，并再次证实了客观评价与主观结果的一致性[19][20]。

六、结论

　　本文提出了三代盲带宽扩展技术，从VQ到GMM到GaN。我们发现，与经典的统计建模技术相比，像GaN这样的机器学习技术在质量上有了显著的提高。基于GaN的预测可以使其质量与WB编解码器相类似，在客观上和主观上都达到了相当于Amr-WB 8.85kbps质量的性能。虽然培技术已经研究了很多年，但由于它不能提供与宽带编解码器类似的质量，所以还没有得到广泛的应用。我们已经表明，使用GaN等机器学习技术可以达到这一质量水平，这有可能加快电信网络中广泛采用培的速度。

七、参考文献

[1] 3GPP TS 26.190, “Adaptive multi-rate wideband (AMR-WB) speech codec; Transcoding functions,” 3rd Generation Partnership Project, Sept. 2012, version 11.0.0.
[2] 3GPP TS 26.441, “Codec for Enhanced Voice Services (EVS); General overview,” 3rd Generation Partnership Project, Dec. 2015, version 13.0.0.
[3] H. Carl and U. Heute, “Bandwidth enhancement of narrowband speech signals,” in Proc. EUSIPCO, vol. 2, Edinburgh, UK, Sept. 1994, pp. 1178–1181.
[4] H. Pulakka and P. Alku, “Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum,” IEEE Trans. Audio, Speech, Language Process., vol. 19, no. 7, pp. 2170–2183, Sept. 2011.
[5] Y. Qian and P. Kabal, “Wideband speech recovery from narrowband speech using Classified codebook mapping”, Proceedings of the 9th Australian International Conference on Speech Science & Technology Melbourne, Dec. 2002.
[6] J. Epps and W. H. Holmes, “A new technique for wideband enhancement of coded narrowband speech,” in Proc. IEEE Speech Coding Workshop, 1999, pp. 174–176.
[7] K.-Y. Park and H. S. Kim, “Narrowband to wideband conversion of speech using GMM based transformation,” in Proc. ICASSP 2000, pp.1843–1846.
[8] P. Jax and P. Vary, “Artificial bandwidth extension of speech signals using MMSE estimation based on a Hidden Markov model,” in Proc. ICASSP 2003, pp. 680-683.
[9] Y. Wang, S. Zhao, W. Liu, M. Li, J. Kuang, “Speech bandwidth expansion based on Deep Neural Networks,” in Proc. INTERSPEECH 2015, pp. 2593-2597.
[10] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde- Farley, S. Ozair, A. Courville, and Y. Bengio. “Generative adversarial nets,” in Advances in Neural Information Processing Systems (NIPS), pages 2672–2680, 2014.
[11] P. Isola, J. Zhu, T. Zhou, A. A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks,” arXiv:1611.07004.
[12] C. Ledig, et al. “Photo-Realistic Single Image Super- Resolution Using a Generative Adversarial Network,” arXiv:1609.04802.
[13] H. Zhang, et al. “StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks,” arXiv:1616.03242.
[14] 3GPP2 C.S0014-C v1.0 “Enhanced Variable Rate Codec, Speech Service Option 3, 68 and 70 for Wideband Spread Spectrum Digital Systems”.
[15] 3GPP TS 26.090, “Adaptive multi-rate (AMR) speech codec; Transcoding functions,” 3rd Generation Partnership Project, Sept. 2012, version 11.0.0.
[16] S. Villette, S. Li, P. Ramadas, D. Sinder, “eAMR: Wideband speech over legacy narrowband networks,” in Proc. ICASSP 2017, pp. 5110-5114.
[17] N. A. T. Corporation, “Multi-lingual speech database for telephonometry,” http://www.nttat. com/products e/speech, 1994.
[18] ITU-T P.501, “Test signals for use in telephonometry,” Int. Telecommunication. Union, Jan. 2012.
[19] S.Villette, S. Li, P. Ramadas, D. Sinder, “An Objective Evaluation Methodology for Blind Bandwidth Extension,” in Proc. INTERSPEECH 2016, pp 2548-2552.
[20] ITU-T P Suppl. 27, “Application of ITU-T P.863 and ITU-T P.863.1 for speech processed by blind bandwidth extension approaches,” Int. Telecomm. Union, Geneva, 2017.
[21] 3GPP TS 26.131, “Terminal acoustic characteristics for telephony; Requirements,” 3rd Generation Partnership Project, Dec. 2015, version 13.2.0.
[22] ITU-T Rec. P.863, “Perceptual Objective Listening Quality Assessment,” Int. Telecomm. Union, Geneva, 2011.
[23] ITU-T P.800, “Methods for subjective determination of transmission quality,” Int. Telecommunication Union, Aug. 1996.