人耳识别代码_语音识别之——音频特征fbank与mfcc,代码实现与分析

语音识别中常用的音频特征包括fbank与mfcc。

获得语音信号的fbank特征的一般步骤是:预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值等。对fbank做离散余弦变换(DCT)即可获得mfcc特征。

下面通过代码进行分析说明。

  • 1、导包
# 导包
import numpy as np
from scipy.io import wavfile
from scipy.fftpack import dct
import matplotlib.pyplot as plt
  • 2、绘图函数

绘制时域图

def plot_time(sig, fs):
    time = np.arange(0, len(sig)) * (1.0 / fs)
    plt.figure(figsize=(20, 5))
    plt.plot(time, sig)
    plt.xlabel('Time(s)')
    plt.ylabel('Amplitude')
    plt.grid()

绘制频域图

def plot_freq(sig, sample_rate, nfft=512):
    xf = np.fft.rfft(sig, nfft) / nfft
    freqs = np.linspace(0, sample_rate/2, nfft/2 + 1)
    xfp = 20 * np.log10(np.clip(np.abs(xf), 1e-20, 1e100))
    plt.figure(figsize=(20, 5))
    plt.plot(freqs, xfp)
    plt.xlabel('Freq(hz)')
    plt.ylabel('dB')
    plt.grid()

绘制二维数组

def plot_spectrogram(spec, notylabele):
    fig = plt.figure(figsize=(20, 5))
    heatmap = plt.pcolor(spec)
    fig.colorbar(mappable=heatmap)
    plt.xlabel('Time(s)')
    plt.ylabel(ylabel)
    plt.tight_layout()
    plt.show()
  • 3、数据读取

音频信号链接:OSR_us_000_0010_8k.wav

wav_file = 'OSR_us_000_0010_8k.wav'
fs, sig = wavfile.read(wav_file)
# 保留前3.5s数据
sig = sig[0: int(3.5 * fs)]

plot_time(sig, fs)

f0f644c543565fea181497e565e836e7.png
plot_freq(sig, fs) 

e307a492bc55b29a2b80505fb8d85dc2.png
  • 4、预加重
pre_emphasis = 0.97
sig = np.append(sig[0], sig[1:] - pre_emphasis * sig[:-1])
plot_time(sig, fs)

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
识别技术是一种新的生物特征识别技术,由于人独特的生理特征结构和生理位置,以及其不受外界环境(刺激)和内心活动对生物特征体影响的特点,逐渐引起同领域研究人员的广泛关注。本文主要从人图像的特征提取技术方面进行探索与研究。 人图像的特征提取是整个识别过程的核心环节。本文的工作主要是围绕如何提取人的局部特征和几何特征及如何将这些特征应用于人识别等问题展开的,主要工作有: 1)针对人图像存在大量相似纹理,直接应用SIFT描述子进行特征点匹配会产生大量误匹配的情况,提出了利用基于全局上下文信息的SIFT描述子进行图像匹配的方法。结合全局上下文信息的SIFT描述子不仅保持了SIFT描述子对图像尺度、旋转、光照变化和图像噪声的良好性能,而且可以较好地对相似纹理区域进行辨别分析。实验结果表明,基于结合全局上下文信息的SIFT描述子的图像匹配算法可有效避免相似纹理区域特征点之间的误匹配,提高了人图像匹配的效率。 2)针对已有的人几何特征提取方法受姿态变化影响都较为严重的情况,本文提出了一种基于射影不变量的人特征提取方法。首先,检测人长轴上的五个边缘特征点,然后,任取其中的4个边缘特征点并计算它们之间的交比,可得到5个交比值。最后,将计算出的5个交比值联合起来,构造成人特征向量。实验结果表明,与利用特征点长度比值作为人几何特征识别方法相比,基于射影不变量的人识别方法对人姿态变化具有更好的鲁棒性。 3)为了进一步提高识别率,本文将基于结合全局上下文信息SIFT描述子的图像匹配方法与基于射影不变量的人几何特征提取方法结合起来用于人识别,并通过大量的实验验证了该方法的有效性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值