语音数据处理与降噪技术-CSDN博客

本文链接：https://blog.csdn.net/qq_33740167/article/details/106242104

获取干净语音及噪声语音数据，可以使用 $s o u n d f i l e$ 中的 $r e a d$ 函数；
- 获取语音有些困难，因为语音数据庞大，因此需要调整获取语音数据的方式；
- 已知：（1）语音数据：包括 $s p e e c h$ ， $n o i s e$ （训练数据、验证数据及测试数据未分类）；（2）训练数据文本文档、验证数据文本文档、测试数据文本文档；
- 根据已知创建所需分类数据。
- 具体实现见链接。
处理语音数据，主要是因为噪声和干净语音的长度不一致，而对干净语音加噪时，需要保证噪声和干净语音的长度一致，以防数据处理时，数组不一致，因此需要选取与干净语音长度一致的噪声（随机选取）；
- 根据论文中所述，实验过程中使用了五种噪声（ $b a b b l e . w a v$ , $e n g i n e . w a v$ , $f a c t o r y . w a v$ , $o p . w a v$ , $s s n . w a v$ ）用于训练，七种噪声（ $b a b b l e . w a v$ , $e n g i n e . w a v$ , $f a c t o r y . w a v$ , $o p . w a v$ , $s s n . w a v$ , $b u c c a n e e r 1 . w a v$ , $f a c t o r y 2 . w a v$ , ）用于测试，但是为了为了避免早上重复，需要将噪声分段，前半部分用于训练，后半部分用于测试，噪声的分段操作见链接。（其中， $c u t N o i s e ()$ 函数为对噪声的分段操作）
按一定信噪比将干净语音和噪声混合，以获取加噪语音；见链接。
提取频谱特征（ $S T F T$ 、 $M F C C$ 等，选其一，可根据不同的方法提取不同的特征以提高降噪效果）；见链接。
降噪：采取不同的降噪方法，如 $I R M$ 、 $I B M$ 、 $c I R M$ 等；（待完成）
合成降噪后的语音，与干净语音对比，分析降噪效果；（待完成）
后续就是要加网络训练。（待完成）

DNN语音增强实现