原标题:Python | 简单的扩音,音频去噪,静音剪切
之前一段时间一直在搞数字语音识别,在训练算法上耗费了很多时间,但结果不尽人意。后来才发现自己一直忽视了音频预处理的一步,于是转而囫囵吞枣般学习一些简单的信号处理算法。这里简单介绍一下以下内容:
扩音
音频去噪
静音剪切
文末将会给出源代码和demo代码的git库地址,有需要的同学请自取。
基本概念
数字信号
数字信号是通过对连续的模拟信号采样得到的离散的函数。它可以简单看作一个以时间为下标的数组。比如,x[n],n为整数。比如下图是一个正弦信号(n=0,1, ..., 9):
对于任何的音频文件,实际上都是用这种存储方式,比如,下面是对应英文单词“skip”的一段信号(只不过由于点太多,笔者把点用直线连接了起来):
衡量数字信号的能量(强度),只要简单的求振幅平方和即可:
E = sum(x[n]*x[n])
频率
我们知道,声音可以看作是不同频