Python语音基础操作--5.1自适应滤波

最新推荐文章于 2023-05-31 10:12:31 发布

sinat_18131557

最新推荐文章于 2023-05-31 10:12:31 发布

阅读量5k

点赞数 6

分类专栏：语音信号 Python 文章标签：机器学习语音识别 python

本文链接：https://blog.csdn.net/sinat_18131557/article/details/106440692

版权

Python 同时被 2 个专栏收录

66 篇文章

订阅专栏

语音信号

28 篇文章

订阅专栏

本文介绍使用Python进行语音信号处理的方法，包括语音录制、编辑、频域分析及降噪技术。涵盖自适应滤波、谱减法等增强算法，并提供基于Python的代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《语音信号处理试验教程》（梁瑞宇等）的代码主要是Matlab实现的，现在Python比较热门，所以把这个项目大部分内容写成了Python实现，大部分是手动写的。使用CSDN博客查看帮助文件：

代码可在Github上下载：busyyang/python_sound_open

语音降噪主要研究如何利用信号处理技术消除信号中的强噪声干扰，从而提高输出信噪比以提取出有用信号的技术。消除信号中噪声污染的通常方法是让受污染的信号通过二个能抑制噪声而让信号相对不变的滤波器，此滤波器从信号不可检测的噪声场中取得输入，将此输入加以滤波，抵消其中的原始噪声，从而达到提高信噪比的目的。

然而，由于干扰通常都是随机的，从带噪语音巾提取完全纯净的语音几乎不可能。在这种情况下，语音增强的目的主要有两个:一是改进语音质量，消除背景噪声，使昕者乐于接受，不感觉疲劳，这是一种主观度量;二是提高语音可懂度，这是一种客观度量。这两个目的往往不能兼得，所以实际应用中总是视具体情况而有所侧重的。

根据语音和噪声的特点，出现了很多种语音增强算法。比较常用的有谱减法、维纳滤波法、卡尔曼滤波法、自适应滤波法等。此外，随着科学技术的发展又出现了一些新的增强技术，如基于神经网络的语音增强、基于HMM 的语音增强、基于昕觉感知的语音增强、基于多分辨率分析的语音增强、基于语音产生模型的线性滤波法、基于小波变换的语音增强方法、梳状洁、波法、自相关法、基于语音模型的语音增强方法等。

带噪语音模型

而通常所说噪声是局部平稳的，是指一段带噪语音中的噪声，具有和语音段开始前那段噪声相同的统计特性，且在整个语音段中保持不变。也就是说，可以根据语音开始前那段噪声来估计语音中所叠加的噪声统计特性。

LMS自适应滤波器

所谓自适应滤波器就是利用前一时刻已获得的滤波器参数等结果，自动地调节现时刻的滤波器参数，以适应信号和|噪声未知的随机变化的统计特性，从而实现最优滤波。

最小方均(LMS) 白适应算法就是以已知期望响应和滤波器输出信号之间误差的方均值最小为准的，依据输入信号在迭代过程中估计梯度矢量，并更新权系数以达到最优的白适应迭代算法。LMS 算法是一种梯度最速下降方法，其显著的优点是它的简单性，这种算法不需要计算相应的相关函数，也不需要进行矩阵运算。

滤波器的输出 $y (n)$ 表示为：
$y(n)=\bold{W^T}(n)\bold{X}(n)=\sum_{i=0}^{N-1}w_i(n)\bold{x}(n-i)$

对于LMS滤波器的结构，误差为： $\bold{e}(n)=\bold{d}(n)-\bold{y}(n)$ 。方均误差为：
$\epsilon=\bold{E}[\bold{e^2}(n)]=\bold{E}[\bold{d}(n)-\bold{y}(n)]=\bold{E}[\bold{d^2}(n)]+\bold{W^T}(n)R\bold{W}(n)-2\bold{PW}(n)$

其中 $\bold{R}=\bold{E}[\bold{X}\bold{X^T}]$ ，是 $N\times N$ 的自相关矩阵， $\bold{P}=\bold{E}[\bold{d}(n)\bold{X^T}(n)]$ 为互相关矩阵，代表理想信号 $\bold{d}(n)$ 与输入矢量 $\bold{X}(n)$ 的相关性。

在达到误差 $\epsilon$ 最小时，有：
$\frac{\partial \epsilon}{\partial\bold{W}(n)}|_{\bold{W}(n)=W^*}=0$

有：
$\bold{RW^*-P}=0\rightarrow\bold{W^*=\bold{R^{-1}P}}$

LMS算法使用梯度下降来解，即 $\bold{W:=W-\mu \Delta W(n)}$

$\Delta W(n)=\frac{\partial E[e^2(n)]}{\partial W(n)}=2E[e(n)]\frac{\partial E[e(n)]}{\partial W(n)}=2E[e(n)]\frac{\partial E[\bold{d}(n)-\bold{y}(n)]}{\partial W(n)}=-2E[e(n)x(n)]$

那么：
$W_{(n+1)}=W_{(n)}+2\mu \Delta e(n)x(n)$

语音质量性能指标

信噪比
$SNR=10\lg \frac{\sum\limits_{n=1}^Ns^2(n)}{\sum\limits_{n=1}^Nd^2(n)}$
$s$ 表示信号， $d$ 表示噪声。
PESQ(Perceptual Evaluation of Speech Quality)
PESQ 算法需要带噪的衰减信号和一个原始的参考信号。开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、昕觉变换之后，分别提取两路信号的参数，综合其时频特性，得到PESQ分数，最终将这个分数映射到主观平均意见分(MOS)。PESQ得分范围在-0.5到4.5之间。得分越高表示语音质量越好。

from chapter2_基础.soundBase import *
from chapter5_语音降噪.自适应滤波 import *


def awgn(x, snr):
    snr = 10 ** (snr / 10.0)
    xpower = np.sum(x ** 2) / len(x)
    npower = xpower / snr
    return x + np.random.randn(len(x)) * np.sqrt(npower)


data, fs = soundBase('C5_1_y.wav').audioread()
data -= np.mean(data)
data /= np.max(np.abs(data))
IS = 0.25  # 设置前导无话段长度
wlen = 200  # 设置帧长为25ms
inc = 80  # 设置帧移为10ms
SNR = 5  # 设置信噪比SNR
N = len(data)  # 信号长度
time = [i / fs for i in range(N)]  # 设置时间
r1 = awgn(data, SNR)
NIS = int((IS * fs - wlen) // inc + 1)
# 5.2.1
snr1 = SNR_Calc(r1, r1 - data)
a, b = 4, 0.001
output = SpectralSub(r1, wlen, inc, NIS, a, b)
if len(output) < len(r1):
    filted = np.zeros(len(r1))
    filted[:len(output)] = output
elif len(output) > len(r1):
    filted = output[:len(r1)]
else:
    filted = output

plt.subplot(4, 1, 1)
plt.plot(time, data)
plt.ylabel('原始信号')
plt.subplot(4, 1, 2)
plt.plot(time, r1)
plt.ylabel('加噪声信号')
plt.subplot(4, 1, 3)
plt.ylabel('滤波信号')
plt.plot(time, filted)
plt.show()

#自适应滤波.py
import numpy as np
from chapter3_分析实验.C3_1_y_1 import enframe


def SNR_Calc(s, r):
    """
    计算信号的信噪比
    :param s: 信号
    :param r1: 噪声
    :return:
    """
    Ps = np.sum(np.power(s - np.mean(s), 2))
    Pr = np.sum(np.power(r - np.mean(r), 2))
    return 10 * np.log10(Ps / Pr)


def LMS(xn, dn, M, mu, itr):
    """
    使用LMS自适应滤波
    :param xn:输入的信号序列
    :param dn:所期望的响应序列
    :param M:滤波器的阶数
    :param mu:收敛因子(步长)
    :param itr:迭代次数
    :return:
    """
    en = np.zeros(itr)  # 误差序列,en(k)表示第k次迭代时预期输出与实际输入的误差
    W = np.zeros((M, itr))  # 每一行代表一个加权参量,每一列代表-次迭代,初始为0
    # 迭代计算
    for k in range(M, itr):
        x = xn[k:k - M:-1]
        y = np.matmul(W[:, k - 1], x)
        en[k] = dn[k] - y
        W[:, k] = W[:, k - 1] + 2 * mu * en[k] * x
    # 求最优输出序列
    yn = np.inf * np.ones(len(xn))
    for k in range(M, len(xn)):
        x = xn[k:k - M:-1]
        yn[k] = np.matmul(W[:, -1], x)
    return yn, W, en


def NLMS(xn, dn, M, mu, itr):
    """
    使用Normal LMS自适应滤波
    :param xn:输入的信号序列
    :param dn:所期望的响应序列
    :param M:滤波器的阶数
    :param mu:收敛因子(步长)
    :param itr:迭代次数
    :return:
    """
    en = np.zeros(itr)  # 误差序列,en(k)表示第k次迭代时预期输出与实际输入的误差
    W = np.zeros((M, itr))  # 每一行代表一个加权参量,每一列代表-次迭代,初始为0
    # 迭代计算
    for k in range(M, itr):
        x = xn[k:k - M:-1]
        y = np.matmul(W[:, k - 1], x)
        en[k] = dn[k] - y
        W[:, k] = W[:, k - 1] + 2 * mu * en[k] * x / (np.sum(np.multiply(x, x)) + 1e-10)
    # 求最优输出序列
    yn = np.inf * np.ones(len(xn))
    for k in range(M, len(xn)):
        x = xn[k:k - M:-1]
        yn[k] = np.matmul(W[:, -1], x)
    return yn, W, en


def SpectralSub(signal, wlen, inc, NIS, a, b):
    """
    谱减法滤波
    :param signal:
    :param wlen:
    :param inc:
    :param NIS:
    :param a:
    :param b:
    :return:
    """
    wnd = np.hamming(wlen)
    y = enframe(signal, wnd, inc)
    fn, flen = y.shape
    y_a = np.abs(np.fft.fft(y, axis=1))
    y_a2 = np.power(y_a, 2)
    y_angle = np.angle(np.fft.fft(y, axis=1))
    Nt = np.mean(y_a2[:NIS, ], axis=0)

    y_a2 = np.where(y_a2 >= a * Nt, y_a2 - a * Nt, b * Nt)

    X = y_a2 * np.cos(y_angle) + 1j * y_a2 * np.sin(y_angle)
    hatx = np.real(np.fft.ifft(X, axis=1))

    sig = np.zeros(int((fn - 1) * inc + wlen))

    for i in range(fn):
        start = i * inc
        sig[start:start + flen] += hatx[i, :]
    return sig


def SpectralSubIm(signal, wind, inc, NIS, Gamma, Beta):
    pass