Python语音基础操作--5.2谱减法

最新推荐文章于 2022-09-14 11:46:17 发布

sinat_18131557

最新推荐文章于 2022-09-14 11:46:17 发布

阅读量3.2k

点赞数 5

分类专栏： Python 语音信号文章标签： python 信号处理机器学习

本文链接：https://blog.csdn.net/sinat_18131557/article/details/106440714

版权

Python 同时被 2 个专栏收录

66 篇文章 39 订阅

订阅专栏

语音信号

28 篇文章 61 订阅

订阅专栏

《语音信号处理试验教程》（梁瑞宇等）的代码主要是Matlab实现的，现在Python比较热门，所以把这个项目大部分内容写成了Python实现，大部分是手动写的。使用CSDN博客查看帮助文件：

代码可在Github上下载：busyyang/python_sound_open

谱减法

对于任何一帧信号 $x_i(m)$ 做FFT变换后：
$X_i(k)=\sum_{m=1}^Nx_i(m)\exp(j\frac{2\pi mk}{N})$

对于 $X_i(k)$ 的幅值为 $X_i(k)|$ ,角度为 $X^i_{angle}(k)=\arctan[\frac{Im(X_i(k))}{Re(X_i(k))}]$ ,前导噪声段时长为IS,对应帧数为NIS,可以得到该噪声段的平均能量为：
$D(k)=\frac{1}{NIS}\sum_{i=1}^{NIS}|X_i(k)|^2$

谱减公式为：
$|\hat X_i(k)|^2=\left \{\begin{array}{ll} |X_i(k)|^2-a\times D(k)& |X_i(k)|^2\geqslant a \times D(k)\\ b\times D(k)&|X_i(k)|^2< a \times D(k) \end{array} \right.$

其中， $a, b$ 是两个常数， $a$ 为过减因子， $b$ 为增益补偿因子。

利用谱减后的幅值 $|\hat X_i(k)|$ ,以及原先的相位角 $X^i_{angle}(k)$ ，可以利用iFFT求出增强后的语音序列 $\hat x_i(m)$ 。

Boll改进谱减法

（一）谱减公式改为：
$|\hat X_i(k)|^{\gamma}=\left \{\begin{array}{ll} |X_i(k)|^{\gamma}-a\times D(k)& |X_i(k)|^{\gamma}\geqslant a \times D(k)\\ b\times D(k)&|X_i(k)|^{\gamma}< a \times D(k) \end{array} \right.$

$D(k)=\frac{1}{NIS}\sum_{i=1}^{NIS}|X_i(k)|^{\gamma}$

当 $\gamma=1$ ，算法相当于用谱幅值做谱减法，当 $\gamma=2$ ，算法相当于用功率谱幅值做谱减法。

（二）计算平均谱值代替
$Y_i(k)=\frac{1}{2M+1}\sum_{j=-M}^MX_{i+j}(k)$

使用 $Y_i(k)$ 代替 $X_i(k)$ ，可以得到较小的谱估算方差。

（三）减小噪声残留
$D_i(k)=\left \{\begin{array}{ll} D_i(k)& D_i(k)\geqslant \max|N_R(k)|\\ \min\{D_j(k)|j \in [i-1,i,i+1]\}&D_i(k)< \max|N_R(k)| \end{array} \right.$

其中， $max|N_R(k)|$ 为最大残余噪声。

from chapter2_基础.soundBase import *
from chapter5_语音降噪.自适应滤波 import *


def awgn(x, snr):
    snr = 10 ** (snr / 10.0)
    xpower = np.sum(x ** 2) / len(x)
    npower = xpower / snr
    return x + np.random.randn(len(x)) * np.sqrt(npower)


data, fs = soundBase('C5_1_y.wav').audioread()
data -= np.mean(data)
data /= np.max(np.abs(data))
IS = 0.25  # 设置前导无话段长度
wlen = 200  # 设置帧长为25ms
inc = 80  # 设置帧移为10ms
SNR = 5  # 设置信噪比SNR
N = len(data)  # 信号长度
time = [i / fs for i in range(N)]  # 设置时间
r1 = awgn(data, SNR)
NIS = int((IS * fs - wlen) // inc + 1)
# 5.2.1
snr1 = SNR_Calc(r1, r1 - data)
a, b = 4, 0.001
output = SpectralSub(r1, wlen, inc, NIS, a, b)
if len(output) < len(r1):
    filted = np.zeros(len(r1))
    filted[:len(output)] = output
elif len(output) > len(r1):
    filted = output[:len(r1)]
else:
    filted = output

plt.subplot(4, 1, 1)
plt.plot(time, data)
plt.ylabel('原始信号')
plt.subplot(4, 1, 2)
plt.plot(time, r1)
plt.ylabel('加噪声信号')
plt.subplot(4, 1, 3)
plt.ylabel('滤波信号')
plt.plot(time, filted)

plt.show()

sinat_18131557

关注

5
点赞
踩
33

收藏

觉得还不错? 一键收藏
1
评论
Python语音基础操作--5.2谱减法

谱减法对于任何一帧信号xi(m)x_i(m)xi(m)做FFT变换后：Xi(k)=∑m=1Nxi(m)exp⁡(j2πmkN)X_i(k)=\sum_{m=1}^Nx_i(m)\exp(j\frac{2\pi mk}{N})Xi(k)=m=1∑Nxi(m)exp(jN2πmk)对于Xi(k)X_i(k)Xi(k)的幅值为∣Xi(k)∣|X_i(k)|∣Xi(k)∣,角度为Xanglei(k)=arctan⁡[Im(Xi(k))Re(Xi(k))]X^i_{angle}(k)=\arcta
复制链接

扫一扫

专栏目录