Python 播放音频与录音

最新推荐文章于 2024-07-11 21:37:19 发布

Python进阶者

最新推荐文章于 2024-07-11 21:37:19 发布

阅读量3.5k

点赞数 5

点击上方“Python爬虫与数据挖掘”，进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

今

日

鸡

汤

近水楼台先得月，向阳花木易为春。

音频预处理

这一讲主要介绍些音频基本处理方式，为接下来的语音识别打基础。

三种播放音频的方式

使用 python 播放音频有以下几种方式：

os.system()

os.system(file) 调用系统应用来打开文件，file 可为图片或者音频文件。

缺点：要打开具体的应用，不能在后台播放音频。

pyaudio

安装：pip install pyaudio

官方提供了播放音频与录音的 api ，使用十分方便，只要把Filename更改为你的音频文件的文字，就可以播放音频了。

"""PyAudio Example: Play a WAVE file."""import pyaudioimport waveCHUNK = 1024FILENAME = '你的音频文件'def play(filename = FILENAME):    wf = wave.open(filename, 'rb')    p = pyaudio.PyAudio()    stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),                    channels=wf.getnchannels(),                    rate=wf.getframerate(),                    output=True)    data = wf.readframes(CHUNK)    while data != b'':        stream.write(data)        data = wf.readframes(CHUNK)    stream.stop_stream()    stream.close()    p.terminate()

import pyaudio
import wave


CHUNK = 1024
FILENAME = '你的音频文件'

def play(filename = FILENAME):
    wf = wave.open(filename, 'rb')

    p = pyaudio.PyAudio()

    stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
                    channels=wf.getnchannels(),
                    rate=wf.getframerate(),
                    output=True)

    data = wf.readframes(CHUNK)

    while data != b'':
        stream.write(data)
        data = wf.readframes(CHUNK)

    stream.stop_stream()
    stream.close()

    p.terminate()

jupyter notebook

在 jupyer notebook 中播放音频可以使用以下函数：

import IPython.display as ipdipd.Audio(文件名)as ipd
ipd.Audio(文件名)

几种读取音频的方式

python 有很多读取音频文件的方法，内置的库 wave ，科学计算库 scipy, 和方便易用的语音处理库 librosa。

下面将介绍分别使用这几种库读取音频文件：

安装：

wave 是内置库直接导入即可。

scipy: pip install scipy

librosa: pip install librosa

使用：

wave.open:

参数 path 为文件名，mode 为打开方式

以'rb'方式打开文件返回一个 Wave_read 对象，而以'wb'方式打开文件返回一个 Wave_write 对象。

scipy.io.wavfile:

参数 path 为文件名

返回 rate : 采样率（每秒采样点的个数），data : 音频数据

librosa.load:

参数 path 为文件名

返回 y 为音频数据，sr 为采样率

# read wav file from pathfrom scipy.io import wavfileimport librosaimport pyaudio# wavefile = wave.open(path,'rb')# wavfilerate, data = wavfile.read(path)# librosay, sr = librosa.load(path)
from scipy.io import wavfile
import librosa
import pyaudio

# wave
file = wave.open(path,'rb')
# wavfile
rate, data = wavfile.read(path)
# librosa
y, sr = librosa.load(path)

下面演示一个使用 wavfile 读取音频文件并且画出波形的例子：

首先要计算音频到底持续了多长时间，wave 的 shape 就是总的采样点个数，除以采样频率可以得到持续的总时间（秒），乘1000得到总持续时间（毫秒）。接着通过 np.linsapce 产生时间的序列，最后使用 matplotlib 画出图像。

from scipy.io import wavfileimport matplotlib.pyplot as pltimport numpy as np%matplotlib inline# 一秒采样数sr, wave = wavfile.read('D://QQPCMgr/Desktop/python3/skip.wav')sample_number = wave.shape[0]total_time = int(sample_number / sr * 1000)time_series = np.linspace(0,total_time,sample_number)fig, ax = plt.subplots(1, 1)ax.plot(time_series, wave)ax.set_title('Time*Amplitude')ax.set_xlabel('Time/ms')ax.set_ylabel('Amplitude/dB')import wavfile
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

# 一秒采样数
sr, wave = wavfile.read('D://QQPCMgr/Desktop/python3/skip.wav')
sample_number = wave.shape[0]
total_time = int(sample_number / sr * 1000)
time_series = np.linspace(0,total_time,sample_number)
fig, ax = plt.subplots(1, 1)
ax.plot(time_series, wave)
ax.set_title('Time*Amplitude')
ax.set_xlabel('Time/ms')
ax.set_ylabel('Amplitude/dB')

640?wx_fmt=png

最后再借用 pyaudio 的 api 我们可以实现连续录音功能：

python 实现录音功能

其中，函数 multi_record每结束一次录音会询问 “是否进行下一次录音？”，按回车就可以进行下一次录音了。

import waveimport pyaudioimport matplotlib.pyplot as pltimport timeCHUNK = 1024FORMAT = pyaudio.paInt16CHANNELS = 2RATE = 44100RECORD_SECONDS = 5def record(filename='output.wav'):    """官方录音教程    """        p = pyaudio.PyAudio()        stream = p.open(format=FORMAT,                    channels=CHANNELS,                    rate=RATE,                    input=True,                    frames_per_buffer=CHUNK)        print("* recording")        frames = []    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):        data = stream.read(CHUNK)        frames.append(data)        print("* done recording")        stream.stop_stream()    stream.close()    p.terminate()        wf = wave.open(filename, 'wb')    wf.setnchannels(CHANNELS)    wf.setsampwidth(p.get_sample_size(FORMAT))    wf.setframerate(RATE)    wf.writeframes(b''.join(frames))    wf.close()def multi_record(num=3):    """implement 多次录音"""    for i in range(1,num+1):        print('第{}次录音准备'.format(i))        filename = 'record_{}.wav'.format(i)        record(filename)        time.sleep(second)        _ = input('进行下一次录音？')def main():    multi_record()if __name__ == '__main__':
import pyaudio
import matplotlib.pyplot as plt
import time

CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5


def record(filename='output.wav'):
    """官方录音教程
    """
    
    p = pyaudio.PyAudio()
    
    stream = p.open(format=FORMAT,
                    channels=CHANNELS,
                    rate=RATE,
                    input=True,
                    frames_per_buffer=CHUNK)
    
    print("* recording")
    
    frames = []

    for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
        data = stream.read(CHUNK)
        frames.append(data)
    
    print("* done recording")
    
    stream.stop_stream()
    stream.close()
    p.terminate()
    
    wf = wave.open(filename, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()


def multi_record(num=3):
    """implement 多次录音"""
    for i in range(1,num+1):
        print('第{}次录音准备'.format(i))
        filename = 'record_{}.wav'.format(i)
        record(filename)
        time.sleep(second)
        _ = input('进行下一次录音？')


def main():
    multi_record()

if __name__ == '__main__':