一.时域转频域
这节主要介绍如何经过傅里叶变换将音频转到频域,以便于后续的特征提取和识别。先后进行加窗、分帧、FFT和取log操作。
输入:音频矩阵wavsignal ,帧率fs
例:[[1507 1374 1218 ... -78 -127 -43]],16000
输出:转成频域后的音频矩阵data_input
二.代码:
#coding=utf-8
import os
import wave
import numpy as np
import matplotlib.pyplot as plt
import math
import time
from python_speech_features import mfcc
from python_speech_features import delta
from python_speech_features import logfbank
from scipy.fftpack import fft
def read_wav_data(filename):
"""
:param filename:输入音频的绝对路径(路径+文件名)例:D:\\GitHub\\wav\\dae\\train\\A2_1.wav
:return:wave_data,framerate:输出音频矩阵,帧率。例:A2_1 [[1507 1374 1218 ... -78 -127 -43]]
读取wav文件,返回声音信号的时域谱矩阵和播放时间
"""
wav =