Python语音基础操作--2.2语音编辑

最新推荐文章于 2023-05-10 21:00:00 发布

sinat_18131557

最新推荐文章于 2023-05-10 21:00:00 发布

阅读量4.6k

点赞数 5

分类专栏：语音信号 Python 文章标签： python 语音识别信号处理

本文链接：https://blog.csdn.net/sinat_18131557/article/details/105339686

版权

Python 同时被 2 个专栏收录

66 篇文章 39 订阅

订阅专栏

语音信号

28 篇文章 61 订阅

订阅专栏

《语音信号处理试验教程》（梁瑞宇等）的代码主要是Matlab实现的，现在Python比较热门，所以把这个项目大部分内容写成了Python实现，大部分是手动写的。使用CSDN博客查看帮助文件：

代码可在Github上下载：busyyang/python_sound_open

信号相加

读取了语音信号之后可以看到是一个一维数组，可以直接通过一维数组（列表）的形式进行操作。在两个序列长度不一样时候，可以在短的一个序列后补零。

class soundBase:
    def __init__(self, path):
        self.path = path

    def sound_add(self, data1, data2):
        if len(data1) < len(data2):
            tmp = np.zeros([len(data2)])
            for i in range(len(data1)):
                tmp[i] += data1[i]
            return tmp + data2
        elif len(data1) > len(data2):
            tmp = np.zeros([len(data1)])
            for i in range(len(data2)):
                tmp[i] += data2[i]
            return tmp + data1
        else:
            return data1 + data2

卷积

卷积是一个常用的计算，两个序列 $x_1,x_2$ 的卷积表达式为：
$y(n)=\sum\limits_{k=-\infty}^{\infty}x_1(k)x_2(n-k)$

对于离散信号来说：
$y(n)=\sum\limits_{k=0}^{N}x_1(k)x_2(n-k)$

计算方式可以参考一维信号的卷积认识

采样频率的转化

采样频率的转化是为了做升采样和降采样。降采样是对序列 $x (n)$ 间隔 $D - 1$ 个点进行抽取：
$x_D(m)=x(Dm)\tag{抽取}$

其中 $D$ 为正整数。为了米面抽取序列后频谱混叠，通常在抽取前将信号通过一个抗混叠滤波器。
内插就是在原序列的样本点之间插入 $I - 1$ 个值，原始序列为 $x (n)$ ,内插后的序列为 $x_I(m)$
$x_I(m)=\left\{\begin{array}{ll} x(\frac{m}{I})&,m=0,±I,±2I...\\ 0&,others \end{array}\right.\tag{内插}$

内插之后，通过低通滤波器，移植混叠信号。

在matlab中都可以通过resample函数来进行，通过配置参数的不同即可。在python的实现中，利用audiowrite的参数fs来实现，在读取信号的时候，输出fs,然后对fs进行变化后写入。

class soundBase:
    def __init__(self, path):
        self.path = path

    def audiowrite(self, data, fs, binary=True, channel=1, path=[]):
        if binary:
            wf = wave.open(self.path, 'wb')
            wf.setframerate(fs)
            wf.setnchannels(channel)
            wf.setsampwidth(2)
            wf.writeframes(b''.join(data))
        else:
            if len(path) == 0:
                path = self.path
            wavfile.write(path, fs, data)

    def audioread(self, formater='sample'):
        """
        读取语音文件
        2020-2-26   Jie Y.  Init
        这里的wavfile.read()函数修改了里面的代码，返回项return fs, data 改为了return fs, data, bit_depth
        如果这里报错，可以将wavfile.read()修改。
        :param formater: 获取数据的格式，为sample时，数据为float32的，[-1,1]，同matlab同名函数. 否则为文件本身的数据格式
                        指定formater为任意非sample字符串，则返回原始数据。
        :return: 语音数据data, 采样率fs，数据位数bits
        """
        fs, data, bits = wavfile.read(self.path)
        if formater == 'sample':
            data = data / (2 ** (bits - 1))
        return data, fs, bits

sb = soundBase('C2_2_y.wav')
data, fs = sb.audioread()
sb_cc = soundBase('C2_2_y_conved_2.wav')
sb_c.audiowrite(data, fs * 2)

加法与卷积示例

from soundBase import soundBase
from random import randint, random
import matplotlib.pyplot as plt
import numpy as np

# 2.2 练习1
sb = soundBase('C2_2_y.wav')
# 读取语音
'''
这里的wavfile.read()函数修改了里面的代码，返回项return fs, data 改为了return fs, data, bit_depth
如果这里报错，可以将wavfile.read()修改。
:param formater: 获取数据的格式，为sample时，数据为float32的，[-1,1]，同matlab同名函数. 否则为文件本身的数据格式
                指定formater为任意非sample字符串，则返回原始数据。
:return: 语音数据data, 采样率fs，数据位数bits
'''
data, fs, nbits = sb.audioread()
print(fs)
max_data = max(data)
noise = [random() * 0.1 for i in range(len(data))]
fixed2 = sb.sound_add(data, noise)
plt.subplot(311)
plt.plot(data)
plt.subplot(312)
plt.plot(noise)
plt.subplot(313)
plt.plot(fixed2)
plt.show()
sb_f = soundBase('C2_2_y_noised.wav')
sb_f.audiowrite(fixed2, fs)
# sb_f.audioplayer()

# 2.2 练习2
conved = np.convolve(data, noise, 'same')
sb_c = soundBase('C2_2_y_conved.wav')
sb_c.audiowrite(conved, fs)
# sb_c.audioplayer()

# 2.2 练习3
plt.subplot(211)
x = [i / fs for i in range(len(data))]
plt.plot(x, data)
sb_cc = soundBase('C2_2_y_conved_2.wav')
sb_c.audiowrite(data, fs * 2)
'''
这里的wavfile.read()函数修改了里面的代码，返回项return fs, data 改为了return fs, data, bit_depth
如果这里报错，可以将wavfile.read()修改。
:param formater: 获取数据的格式，为sample时，数据为float32的，[-1,1]，同matlab同名函数. 否则为文件本身的数据格式
                指定formater为任意非sample字符串，则返回原始数据。
:return: 语音数据data, 采样率fs，数据位数bits
'''
data, fs_, nbits = sb_c.audioread()
x = [i / fs_ for i in range(len(data))]
print(fs_)
plt.subplot(212)
plt.plot(x, data)
plt.show()

相加的结果：
在这里插入图片描述

卷积的结果：
在这里插入图片描述

sinat_18131557

关注

5
点赞
踩
34

收藏

觉得还不错? 一键收藏
12
评论
Python语音基础操作--2.2语音编辑

信号相加读取了语音信号之后可以看到是一个一维数组，可以直接通过一维数组（列表）的形式进行操作。在两个序列长度不一样时候，可以在短的一个序列后补零。class soundBase: def __init__(self, path): self.path = path def sound_add(self, data1, data2): if le...
复制链接

扫一扫

专栏目录