自用学习论文之DNN

budangdiyi

已于 2023-09-15 10:30:00 修改

阅读量118

点赞数

文章标签：学习 dnn 人工智能

于 2023-09-14 17:59:34 首次发布

本文链接：https://blog.csdn.net/budangdiyi/article/details/132874525

版权

A Joint Bandwidth Expansion and Speech Enhancement Approach using Deep Neural Network

第一章语音增强之《一种基于深度神经网络的带宽扩展和语音增强联合方法》

文章目录

A Joint Bandwidth Expansion and Speech Enhancement Approach using Deep Neural Network
前言
一、做了什么
二、动机
三、挑战
- 1.降低噪声和从噪声语音产生清晰语音
- 2.扩展带宽并恢复高频谱。
四、方法
五、实验评价
- 1.数据集
- 2.结果
六、结论
七、知识小结

前言

语音新手入门，学习读懂论文。
本文作者机构是
在这里插入图片描述

一、做了什么

本研究提出了一种基于深度神经网络的带宽扩展和语音增强联合方法，该方法旨在同时增加语音信号的带宽和降低噪声，同时保持语音质量和可理解性。
该方法利用深度神经网络的能力，同时估计缺失的语音成分和退化语音信号中的噪声分布。然后使用估计的语音分量和噪声轮廓从有限带宽的噪声信号合成具有改进质量的全频带语音信号。该网络采用三种相位，即原始相位、成像相位和噪声相位以及幅度谱来恢复高频段分量。

二、动机

带宽扩展和语音增强一直是语音处理领域的研究热点。该任务的主要挑战是在提高语音信号质量的同时增加其带宽。深度神经网络(DNN)在解决这一挑战方面表现出了巨大的希望，因为它们可以学习输入和输出信号之间的复杂关系。

三、挑战

1.降低噪声和从噪声语音产生清晰语音

2.扩展带宽并恢复高频谱。

四、方法

1.模型图

在这里插入图片描述

2.损失函数

MSLE均方对数误差
在这里插入图片描述
其中n为输入信号的个数，y为原始信号的一个数据点，与^为预测信号的数据点值。

3.考虑相位

虽然可以得到宽带频谱的精确大小，但相位信息却会丢失。几种算法已经被开发出来用于合成时间域信号，这需要对已预测幅值的高频率估计相位信息。为了重建相位，考虑了三种条件
Oracle phase
Imaged phase
Noisy phase

五、实验评价

1.数据集

TIMIT数据集由美国8个主要方言地区的4000个样本的630个说话人的宽带录音组成。
语音从原始采样率上采样到16千赫。
两种类型的噪声:语音形状噪声和汽车噪声与几个信噪比值一起加入干净的信号，以创建一个嘈杂的环境。
计算了客观指标的分数，如语音质量的感知评价(PESQ)、短时客观可理解性(STOI)和频谱正交多项式测量(SOPM)。

2.结果

利用TIMIT语料库对清洁场景下三个不同相位重构信号的消融研究。
在这里插入图片描述
全频带噪声环境下重构(增强)信号的定量评价。

低频带噪声环境下重构(增强)信号的定量评价。

六、结论

本文提出了一种基于深度神经网络的联合带宽扩展和语音增强方法。该方法旨在提高语音信号的带宽，同时提高语音信号的质量和降低噪声。该网络采用三个不同的相位和幅度谱来恢复高频带分量。结果表明，基于深度神经网络的带宽扩展和语音增强方法在噪声环境下表现优异。总的来说，结果表明，即使相位不完全准确，重构信号的质量也能在一定程度上保持。