【语音识别】基于matlab MFCC GMM语音识别【含Matlab源码 535期】

海神之光

已于 2023-12-19 11:07:34 修改

阅读量3.7k

点赞数 5

分类专栏： Matlab语音处理（进阶版）文章标签： matlab

于 2021-03-16 13:10:04 首次发布

代码事宜私信博主

本文链接：https://blog.csdn.net/TIQCmatlab/article/details/114877082

版权

Matlab语音处理（进阶版）专栏收录该内容

141 篇文章 277 订阅

订阅专栏

✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。
🍎个人主页：海神之光
🏆代码获取方式：
海神之光Matlab王者学习之路—代码获取方式
⛳️座右铭：行百里者，半于九十。

⛄一、高斯混合模型简介

GMM基本框架
在这里插入图片描述
类似的还有GMM-UBM(Universal background model)算法，其与GMM的区别在于：对L类整体样本训练一个大的GMM，而不像GMM对每一类训练一个GMM模型。SVM的话MFCC作为特征，每一帧作为一个样本，可以借助VAD删除无效音频段，直接训练分类。近年来也有利用稀疏表达的方法：
在这里插入图片描述

⛄二、部分源代码

% ====== Load wave data and do feature extraction
clc,clear
waveDir=‘trainning’;
speakerData = dir(waveDir);
%Matlab使用dir函数获得指定文件夹下的所有子文件夹和文件,并存放在在一种为文件结构体数组中.
% dir函数可以有调用方式
% dir(‘.’) 列出当前目录下所有子文件夹和文件
% dir(‘G:\Matlab’) 列出指定目录下所有子文件夹和文件
% dir(‘*.m’) 列出当前目录下符合正则表达式的文件夹和文件
% 得到的为结构体数组每个元素都是如下形式的结构体
% name – filename
% date – modification date
% bytes – number of bytes allocated to the file
% isdir – 1 if name is a directory and 0 if not
% datenum – modification date as a MATLAB serial date number
% 分别为文件名,修改日期,大小,是否为目录,Matlab特定的修改日期
% 可以提取出文件名以作读取和保存用.
speakerData(1:2) = [];
speakerNum=length(speakerData);%speakerNum:人数；

% ====== Feature extraction
fprintf(‘\n读取语音文件并进行特征提取… ‘);
% cd(‘D:\MATLAB7\toolbox\dcpr’);
for i=1:speakerNum
fprintf(’\n正在提取第%d个人%s的特征\n’, i, speakerData(i,1).name(1:end-4));
[y, fs, nbits]=wavread([‘trainning’ speakerData(i,1).name]);
epInSampleIndex = epdByVol(y, fs); % endpoint detection端点检测
y=y(epInSampleIndex(1):epInSampleIndex(2)); % silence is not used去除静音
speakerData(i).mfcc=wave2mfcc(y, fs);
fprintf(’ 完成！！');
end

save speakerData speakerData; % Since feature extraction is slow, you can save the data for future use if the features are not changed.
graph_MFCC; %由于特征提取速度慢，如果功能没有改变，可以保存供日后使用的数据，
fprintf(‘\n’);
clear all;
fprintf(‘特征参数提取完成！ \n\n请点击任意键继续…’);
pause;

% ====== GMM training
fprintf(‘\n训练每个语者的高斯混合模型…\n\n’);
load speakerData.mat
gaussianNum=12; % No. of gaussians in a GMM高斯混合模型中的高斯个数
speakerNum=length(speakerData);

for i=1:speakerNum
fprintf(‘\n为第%d个语者%s训练GMM……\n’, i,speakerData(i).name(1:end-4));
[speakerGmm(i).mu, speakerGmm(i).sigm,speakerGmm(i).c] = gmm_estimate(speakerData(i).mfcc,gaussianNum);
fprintf(’ 完成！！');
end

fprintf(‘\n’);
save speakerGmm speakerGmm;
pause(10);
clear all;
fprintf(‘高斯混合模型训练结束！ \n\n请点击任意键继续…’);
pause;

% ====== recognition
fprintf(‘\n识别中…\n\n’);
load speakerData;
load speakerGmm;

[filename, pathname] = uigetfile(‘*.wav’,‘select a wave file to load’);
if pathname == 0
errordlg(‘ERROR! No file selected!’);
return;
end
wav_file = [pathname filename];
[testing_data, fs, nbits]=wavread(wav_file);
pause(10);
match= MFCC_feature_compare(testing_data,speakerGmm);
disp(‘待测模型匹配中，请等待10秒！’)
pause(10);
[max_1 index]=max(match);
if length(filename)>7
fprintf(‘\n\n\n说话人是%s。’,speakerData(index).name(1:end-4));
else
fprintf(‘\n\n\n说话人是%s。’,filename(1:end-4));
end

⛄三、运行结果

在这里插入图片描述

⛄四、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.
[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.

3 备注
简介此部分摘自互联网，仅供参考，若侵权，联系删除

🍅 仿真咨询
1 各类智能优化算法改进及应用
生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化

2 机器学习和深度学习方面
卷积神经网络（CNN）、LSTM、支持向量机（SVM）、最小二乘支持向量机（LSSVM）、极限学习机（ELM）、核极限学习机（KELM）、BP、RBF、宽度学习、DBN、RF、RBF、DELM、XGBOOST、TCN实现风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断

3 图像处理方面
图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知

4 路径规划方面
旅行商问题（TSP）、车辆路径问题（VRP、MVRP、CVRP、VRPTW等）、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、车辆协同无人机路径规划、天线线性阵列分布优化、车间布局优化

5 无人机应用方面
无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配

6 无线传感器定位及布局方面
传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化

7 信号处理方面
信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化

8 电力系统方面
微电网优化、无功优化、配电网重构、储能配置

9 元胞自动机方面
交通流人群疏散病毒扩散晶体生长

10 雷达方面
卡尔曼滤波跟踪、航迹关联、航迹融合