美尔频率倒谱系数(MFCC)的基本概念

美尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)的分析是基于人的听觉特性机理,即根据人的听觉实验结果来分析语音的频谱。因为人耳所听到的声音的高低与声音的频率并不成线性正比关系,所以用Mel频率尺度更符合人耳的听觉特性。美尔频率尺度的值大体上对应于实际频率的对数分布关系,其与实际频率的具体关系可用下式表示:

 式中,Fmel是以美尔(Mel)为单位的感知频率;f是以Hz为单位的实际频率。临界频率带宽随着频率的变化而变化,并与Mel频率的增长一致,在1000Hz以下,大致呈线性分布,带宽为100Hz左右;在1000Hz以上呈对数增长。类似于临界频带的划分,可以将语音频率划分成一系列三角形的滤波器序列,即美尔滤波器组,如图所示。

在语音的频谱范围内设置若干带通滤波器Hm(k),0≤m≤M,M为滤波器的个数。每个滤波器具有三角形滤波特性,其中心频率为f(m),在Mel频率范围内,这些滤波器是等带宽的。每个带通滤波器的传递函数为

其中,\sum_{m}^{M-1}H_{m}(k)=1 

美尔滤波器的中心频率f(m)定义为

其中,f和f分别为滤波器组的最高频率和最低频率;f为采样频率;单位为Hz。M是滤波
器组的数目;N为FFT变换的点数,式中F_{Mel}^{-1}(b)=700(e^{\tfrac{b}{1125}}-1)

在MATLAB中,melbankm函数可用于计算Mel滤波器组。函数定义如下:
调用格式:
h =melbankm(p,n,fs,fl,fh,w)
输入参数:fs是采样频率;fl是设计的滤波器的最低频率;fh是设计的滤波器的最高频率(fl和fh都需要用fs进行归一化);p是设计的Mel滤波器的个数;n是一帧FFT后数据的长度;w是窗函数('t'代表三角窗;'n'代表汉宁窗;'m'代表汉明窗)。输出参数:h是滤波器的频域响应,是一个p×(n/2+1)的数组,p为滤波器个数,每个滤波器的响应曲线长n/2+1,相当于取正频率的部分。

 参考文献:

语音信号处理实验教程;梁瑞宇、赵力、魏昕(编著) 

MATLAB语音信号分析与合成(第二版);宋知用(编著)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是基于DTW的阿拉伯数字识别的matlab编程实现: 1. 提取频率谱系数(MFCC) MFCC是一种用于音频和语音处理的特征提取方法,常用于语音识别。它们是基于人耳听觉模型的,因此对于人听来说,它们更具有区分度。MFCC的主要步骤如下: 1) 前置处理:对音频信号进行预加重处理,以增强高频部分,减少低频部分。 2) 分帧:将音频信号按照固定长度进行分帧,通常为20-40ms,帧移通常为10-20ms。 3) 加窗:对每一帧进行加窗操作,常用的窗函数包括汉明窗、海宁窗等。 4) 傅里叶变换:对每一帧进行FFT(快速傅里叶变换)得到频谱。 5) Mel滤波器组:将频谱转换到Mel尺度上,使用一组Mel滤波器对频谱进行滤波。 6) DCT(离散余弦变换):对每个Mel滤波器输出进行DCT得到MFCC系数。 下面是一个简单的matlab代码实现: ```matlab % 读取音频文件 filename = 'sample.wav'; [x, fs] = audioread(filename); % 预加重 preemph = [1, -0.97]; x = filter(preemph, 1, x); % 分帧 frame_len = 25; % 每帧长度为25ms frame_shift = 10; % 帧移为10ms frame_size = round(frame_len * fs / 1000); frame_shift_size = round(frame_shift * fs / 1000); frames = buffer(x, frame_size, frame_size-frame_shift_size, 'nodelay'); % 加窗 window = hamming(frame_size); frames = bsxfun(@times, frames, window); % FFT NFFT = 2^nextpow2(frame_size); mag_frames = abs(fft(frames, NFFT, 2)); % Mel滤波器组 low_freq = 0; high_freq = fs/2; nfilt = 26; mel_pts = linspace(hz2mel(low_freq), hz2mel(high_freq), nfilt+2); hz_pts = mel2hz(mel_pts); bin = floor((NFFT+1)*hz_pts/fs); filter_bank = zeros(nfilt, floor(NFFT/2+1)); for j = 1:nfilt for i = bin(j):bin(j+1) filter_bank(j,i) = (i - bin(j))/(bin(j+1)-bin(j)); end for i = bin(j+1):bin(j+2) filter_bank(j,i) = (bin(j+2)-i)/(bin(j+2)-bin(j+1)); end end % 应用Mel滤波器组 filtered_frames = filter_bank * mag_frames(:,1:NFFT/2+1)'; % 取对数 log_filtered_frames = log(filtered_frames+eps); % DCT num_ceps = 12; mfcc = dct(log_filtered_frames); mfcc = mfcc(1:num_ceps,:); ``` 2. 动态时间规整(DTW) DTW是一种用于信号、图像、语音等序列数据的相似性度量方法,可以用于比较两个序列的相似性。它可以解决两个序列长度不同的问题。DTW的基本思路是将其中一个序列沿着时间轴进行拉伸或压缩,使其与另一个序列匹配。 下面是一个简单的matlab代码实现: ```matlab % 计算MFCC系数 mfcc1 = compute_mfcc('sample1.wav'); mfcc2 = compute_mfcc('sample2.wav'); % 计算距离矩阵 d = pdist2(mfcc1', mfcc2', 'euclidean'); % 动态时间规整 dtw = zeros(size(d)); for i = 1:size(d,1) for j = 1:size(d,2) if i == 1 && j == 1 dtw(i,j) = d(i,j); elseif i == 1 dtw(i,j) = d(i,j) + dtw(i,j-1); elseif j == 1 dtw(i,j) = d(i,j) + dtw(i-1,j); else dtw(i,j) = d(i,j) + min([dtw(i-1,j), dtw(i,j-1), dtw(i-1,j-1)]); end end end ``` 以上代码中,`compute_mfcc`函数是用来计算MFCC系数的,可以使用前面提到的MFCC计算代码。`pdist2`函数计算两个序列之间的距离矩阵,`dtw`矩阵则是动态时间规整后的距离矩阵。 3. 阿拉伯数字识别 对于阿拉伯数字的识别,可以先录制一些样本,计算它们的MFCC系数,并将它们保存到一个数据库中。当需要识别一个新的数字时,首先计算它的MFCC系数,然后与数据库中的每个数字进行比较,找到最相似的数字。 下面是一个简单的matlab代码实现: ```matlab % 计算MFCC系数 mfcc_test = compute_mfcc('test.wav'); % 加载数据库 load('database.mat', 'database'); % 计算距离矩阵 min_distance = Inf; min_index = 0; for i = 1:length(database) d = pdist2(mfcc_test', database{i}.mfcc', 'euclidean'); distance = dtw(d); if distance < min_distance min_distance = distance; min_index = i; end end % 输出识别结果 fprintf('The number is %d\n', database{min_index}.label); ``` 以上代码中,`database`是一个保存了数字MFCC系数及标签的结构体数组,可以使用MATLAB自带的`save`函数保存到磁盘中。当需要识别一个新的数字时,计算它的MFCC系数,并遍历数据库中所有数字,计算它们与测试MFCC系数之间的距离并计算DTW距离,找到最小距离对应的数字标签即为识别结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值