【一】从.WAV文件中提取语音的fbank特征

最新推荐文章于 2024-04-28 00:39:13 发布

VIP文章 My heart will go ~~

最新推荐文章于 2024-04-28 00:39:13 发布

阅读量692

点赞数

分类专栏：语音信号处理文章标签：语音识别 python

本文链接：https://blog.csdn.net/qq_44627776/article/details/123633609

版权

本文的代码的主要作用：截取声音文件的前3.5s，预加重（增大高频部分幅度），分帧（帧长25ms，步长10ms），加窗（汉明窗），FFT（计算的512点的），梅尔滤波器（32维的）最后画图显示代码效果。

每部分的参数都可以进行修改，按照自己的需求进行即可。

import numpy as np
from scipy.io import wavfile
from scipy.fftpack import dct
import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt


# 绘制时域图
def plot_time(signal, sample_rate):
    time = np.arange(0, len(signal)) * (1.0 / sample_rate)
    plt.figure(figsize=(20, 5))
    plt.plot(time, signal)
    plt.xlabel('Time(s)')
    plt.ylabel('Amplitude')
    plt.grid()


# 绘制频域图
def plot_freq(signal, sample_rate, fft_size=512):
    xf = np.fft.rfft(signal, fft_size) / fft_size
    freqs = np.linspace(0, int(sample_rate/2), int(fft_size/2 + 1))
    xfp = 20 * np.log10(np.clip(np.abs(xf

最低0.47元/天解锁文章

My heart will go ~~

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【一】从.WAV文件中提取语音的fbank特征

本文的代码的主要作用：截取声音文件的前3.5s，预加重（增大高频部分幅度），分帧（帧长25ms，步长10ms），加窗（汉明窗），FFT（计算的512点的），梅尔滤波器（32维的）最后画图显示代码效果。每部分的参数都可以进行修改，按照自己的需求进行即可。import numpy as npfrom scipy.io import wavfilefrom scipy.fftpack import dctimport warningswarnings.filterwarnings('ignore')
复制链接

扫一扫