深度学习降噪方案-RNNoise源码解析 - 特征提取

最新推荐文章于 2024-06-22 09:39:32 发布

danteliujie

最新推荐文章于 2024-06-22 09:39:32 发布

阅读量7.3k

点赞数 7

分类专栏：机器学习语音增强

本文链接：https://blog.csdn.net/danteLiujie/article/details/102799038

版权

8 篇文章 4 订阅

订阅专栏

5 篇文章 12 订阅

订阅专栏

RNNoise是一个采用音频特征抽取+深度神经网络结合的降噪方案. 更多相关基本信息, 请查看 RNNoise学习和翻译系列

1.读取文件生成特征的主循环

Denoise.c 中的main函数是特征提取部分的主流程.

循环之外的内容有:

主循环主要做了三件事:

这部分代码逻辑来说就是: 循环读取语音和噪音, 混成训练数据, 并产生对应的特征和标记数据.

其中, 数据片大小是20ms, 步进速度是10ms, 有10ms的重叠数据.

其框图如下:

2. 构造不同场景和条件的训练

一个有效的模型, 为了能在现实场景下工作的很好, 必须要刷题, 也要实战, 这意味着训练用的数据必须花样百出. 一种最基本的考虑是使用不同SNR的语音来进行训练, 实验表明使用SNR范围较广的训练数据得到的训练模型对不同的SNR有更好的支持度(参考链接的3.1节 SNR维度)

本模型中采用了以下几种变化参数:

各取值的范围:

该部分代码的数据流向图如下, 从中我们可以发现, 执行梳状滤波那个函数是没必要的:

其中比较关键的子函数有:

其中的帧分析和特征提取部分都会缓存部分数据. 比如帧分析会缓存一帧的数据, 加上当前帧, 共20ms的数据用.

该部分代码的数据流向图如下:

其中比较关键的子函数有:

关注

专栏目录