自用学习论文之DNN

A Joint Bandwidth Expansion and Speech Enhancement Approach using Deep Neural Network

第一章 语音增强之《一种基于深度神经网络的带宽扩展和语音增强联合方法》



前言

语音新手入门,学习读懂论文。
本文作者机构是
在这里插入图片描述


一、做了什么

本研究提出了一种基于深度神经网络的带宽扩展和语音增强联合方法,该方法旨在同时增加语音信号的带宽和降低噪声,同时保持语音质量和可理解性。
该方法利用深度神经网络的能力,同时估计缺失的语音成分和退化语音信号中的噪声分布。然后使用估计的语音分量和噪声轮廓从有限带宽的噪声信号合成具有改进质量的全频带语音信号。该网络采用三种相位,即原始相位、成像相位和噪声相位以及幅度谱来恢复高频段分量。

二、动机

带宽扩展和语音增强一直是语音处理领域的研究热点。该任务的主要挑战是在提高语音信号质量的同时增加其带宽。深度神经网络(DNN)在解决这一挑战方面表现出了巨大的希望,因为它们可以学习输入和输出信号之间的复杂关系。

三、挑战

1.降低噪声和从噪声语音产生清晰语音

2.扩展带宽并恢复高频谱。

四、方法

1.模型图

在这里插入图片描述

2.损失函数

MSLE均方对数误差
在这里插入图片描述
其中n为输入信号的个数,y为原始信号的一个数据点,与^为预测信号的数据点值。

3.考虑相位

虽然可以得到宽带频谱的精确大小,但相位信息却会丢失。几种算法已经被开发出来用于合成时间域信号,这需要对已预测幅值的高频率估计相位信息。为了重建相位,考虑了三种条件
Oracle phase
Imaged phase
Noisy phase

五、实验评价

1.数据集

TIMIT数据集由美国8个主要方言地区的4000个样本的630个说话人的宽带录音组成。
语音从原始采样率上采样到16千赫。
两种类型的噪声:语音形状噪声和汽车噪声与几个信噪比值一起加入干净的信号,以创建一个嘈杂的环境。
计算了客观指标的分数,如语音质量的感知评价(PESQ)、短时客观可理解性(STOI)和频谱正交多项式测量(SOPM)。

2.结果

利用TIMIT语料库对清洁场景下三个不同相位重构信号的消融研究。
在这里插入图片描述
全频带噪声环境下重构(增强)信号的定量评价。
在这里插入图片描述
低频带噪声环境下重构(增强)信号的定量评价。
在这里插入图片描述


六、结论

本文提出了一种基于深度神经网络的联合带宽扩展和语音增强方法。该方法旨在提高语音信号的带宽,同时提高语音信号的质量和降低噪声。该网络采用三个不同的相位和幅度谱来恢复高频带分量。结果表明,基于深度神经网络的带宽扩展和语音增强方法在噪声环境下表现优异。总的来说,结果表明,即使相位不完全准确,重构信号的质量也能在一定程度上保持。

七、知识小结

带宽扩展,通过特定技术或算法,将音频信号的频带范围从原始的窄频带扩展到更宽的频带范围。带宽扩展方法通过填充缺失的高频信息或合成新的高频成分,从而使得音频信号在更广泛的频谱上表现出更多的细节和动态范围。

频谱折叠(Spectral Folding)是在信号处理中的一个现象,通常出现在信号采样过程中。当信号的采样频率低于信号频率的两倍时,会发生频谱折叠。高频成分会错误地出现在低频区域,导致信号无法正确还原。通过使用低通滤波器可以抑制频谱折叠现象。

低通滤波器(Low Pass Filter)是一种信号处理滤波器,它可以去除高于某个截止频率的信号成分,只保留低于该频率的信号成分。常见的低通滤波器有理想低通滤波器、巴特沃斯低通滤波器、切比雪夫低通滤波器等等,这些滤波器都具有不同的特点。

多模态语音降噪网络通过将清晰语音与噪声源连接并将其与加速度计信号一起输入到多模态编码器中来获取噪声语音。

Radio2Speech通过分析无线电频率信号来提取高质量的语音。

带限信号是指在频率上有一定范围限制的信号。它的频谱在一定的频率范围内具有显著的能量,而在其他频率范围内能量较低或几乎没有能量。

镜像相位是指一个信号相对于参考信号发生180度的相位反转。镜像相位常用于数字信号处理、通信和信号调制等领域。

语音的非结构特性是指语音信号中缺乏明显的、可被建模或描述的规律性特征。说话习惯和个体差异,语音表达的感情色彩,声调和韵律变化,噪音和干扰。

频谱正交多项式测量(SOPM),它基于短时傅里叶变换(STFT)得到的语音频谱,并通过计算频谱的正交多项式来度量语音信号的质量和清晰度。

Oracle相位:在信号处理中,Oracle相位指的是具有最佳信息的理论相位。在给定幅度的情况下,Oracle相位是可以完全准确地预测信号的相位。

Imaged相位:Imaged相位是通过从已知幅度恢复信号的相位而得到的近似相位。它通常通过利用幅度信息和相位重建算法来计算。

Noisy相位:Noisy相位指的是在存在噪声的条件下从观测到的信号中估计得到的相位。由于噪声的存在,Noisy相位可能不够精确,并且受到干扰的影响。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

budangdiyi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值