语音－MFCC,Fbank特征提取

最新推荐文章于 2024-07-04 15:03:08 发布

908的男同学

最新推荐文章于 2024-07-04 15:03:08 发布

阅读量1.9k

点赞数 1

文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nwnu_908/article/details/117366529

版权

本文详细介绍了如何使用Python进行12维MFCC和23维FBank特征提取，这两种特征在语音识别和机器学习任务中至关重要。

摘要由CSDN通过智能技术生成

提取12维MFCC特征和23维FBank

import librosa
import numpy as np
import matplotlib.pyplot as plt
import librosa.display
from scipy.fftpack import dct

# 绘制频谱图
def plot_spectrogram(spec, note):
    fig = plt.figure(figsize=(20, 5))
    heatmap = plt.pcolor(spec)
    fig.colorbar(mappable=heatmap)
    plt.xlabel('Time(s)')
    plt.ylabel(note)
    plt.tight_layout()

#preemphasis config 
alpha = 0.97 #滤波器系数（α）

# Enframe config
frame_len = 400      # 25ms, fs=16kHz
frame_shift = 160    # 10ms, fs=15kHz
fft_len = 512        #参与FFT运算的512个数据

# Mel filter config
num_filter = 23
num_mfcc = 12

# Read wav file
wav, fs = librosa.load('./test.wav', sr=None) #Librosa默认的采样率是22050，如果需要读取原始采样率，需要设定参数sr=None
##plt.plot(wav)
##plt.show()
#print(fs)
plt.figure()
librosa.display.waveplot(wav, fs)
plt.show()
# Pre-Emphasis
def preemphasis(signal, coeff=alpha):

最低0.47元/天解锁文章

908的男同学

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

908的男同学 CSDN认证博客专家 CSDN认证企业博客

码龄3年

10: 原创

75万+: 周排名

167万+: 总排名

1万+: 访问

: 等级

121: 积分

16: 粉丝

14: 获赞

3: 评论

55: 收藏

私信

关注

热门文章

最新评论

TDNN模型及其改进模型的理解
xiasong12345: 你好，在引用这个时，tdnn = TDNNLayer(30, 30 ,[-3,0,3])的参数表示啥意思呀
KALDI-IO库的生成与读取
星河亦无恙: 博主，你好，我没太看懂，我想问一下这个kaldi-io是怎么读取ark文件的，我将我的语音数据通过kalid提出了扩展名为.ark的特征，现在不知道怎么怎么去读入这些特征。
语音识别基础知识理解
我爱人工智能: 都是博主辛苦创作，我来支持一下，奥利给！期待大佬回访！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。