【语音识别】基于matlab GUI智能语音识别门禁系统【含Matlab源码 596期】

海神之光

已于 2023-10-27 19:59:33 修改

阅读量1.8k

点赞数 3

分类专栏： Matlab语音处理（进阶版）文章标签： matlab 人工智能

于 2021-03-21 19:35:41 首次发布

代码事宜私信博主

本文链接：https://blog.csdn.net/TIQCmatlab/article/details/115054253

版权

Matlab语音处理（进阶版）专栏收录该内容

146 篇文章 285 订阅

订阅专栏

✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。
🍎个人主页：海神之光
🏆代码获取方式：
海神之光Matlab王者学习之路—代码获取方式
⛳️座右铭：行百里者，半于九十。

⛄一、案例简介

本文基于Matlab设计实现了一个文本相关的声纹识别系统，可以判定说话人身份。
1 系统原理
a 声纹识别
这两年随着人工智能的发展，不少手机App都推出了声纹锁的功能。这里面所采用的主要就是声纹识别相关的技术。声纹识别又叫说话人识别，它和语音识别存在一点差别。
在这里插入图片描述
b 梅尔频率倒谱系数（MFCC）
梅尔频率倒谱系数（Mel Frequency Cepstrum Coefficient, MFCC）是语音信号处理中最常用的语音信号特征之一。
实验观测发现人耳就像一个滤波器组一样，它只关注频谱上某些特定的频率。人耳的声音频率感知范围在频谱上的不遵循线性关系，而是在Mel频域上遵循近似线性关系。
梅尔频率倒谱系数考虑到了人类的听觉特征，先将线性频谱映射到基于听觉感知的Mel非线性频谱中，然后转换到倒谱上。普通频率转换到梅尔频率的关系式为：
在这里插入图片描述
c 矢量量化（VectorQuantization）
本系统利用矢量量化对提取的语音MFCC特征进行压缩。
VectorQuantization (VQ)是一种基于块编码规则的有损数据压缩方法。事实上，在 JPEG 和 MPEG-4 等多媒体压缩格式里都有 VQ 这一步。它的基本思想是：将若干个标量数据组构成一个矢量，然后在矢量空间给以整体量化，从而压缩了数据而不损失多少信息。
3 系统结构
本文整个系统的结构如下图：
3.1 训练过程
首先对语音信号进行预处理，之后提取MFCC特征参数，利用矢量量化方法进行压缩，得到说话人发音的码本。同一说话人多次说同一内容，重复该训练过程，最终形成一个码本库。
3.2 识别过程
在识别时，同样先对语音信号预处理，提取MFCC特征，比较本次特征和训练库码本之间的欧氏距离。当小于某个阈值，我们认定本次说话的说话人及说话内容与训练码本库中的一致，配对成功。
在这里插入图片描述
4 测试实验

可以看到只有说话人及说话内容与码本库完全一致时才会显示“密码正确”，否则显示“密码错误”，实现了声纹锁的相关功能。

⛄二、部分源代码

function varargout = GUI(varargin)

gui_Singleton = 1;
gui_State = struct(‘gui_Name’, mfilename, …
‘gui_Singleton’, gui_Singleton, …
‘gui_OpeningFcn’, @GUI_OpeningFcn, …
‘gui_OutputFcn’, @GUI_OutputFcn, …
‘gui_LayoutFcn’, [] , …
‘gui_Callback’, []);
if nargin && ischar(varargin{1})
gui_State.gui_Callback = str2func(varargin{1});
end

if nargout
[varargout{1:nargout}] = gui_mainfcn(gui_State, varargin{:});
else
gui_mainfcn(gui_State, varargin{:});
end
% End initialization code - DO NOT EDIT

% — Executes just before GUI is made visible.
function GUI_OpeningFcn(hObject, eventdata, handles, varargin)
% This function has no output args, see OutputFcn.

% varargin command line arguments to GUI (see VARARGIN)

% Choose default command line output for GUI
handles.output = hObject;

% Update handles structure
guidata(hObject, handles);

% UIWAIT makes GUI wait for user response (see UIRESUME)
% uiwait(handles.figure1);

% — Outputs from this function are returned to the command line.
function varargout = GUI_OutputFcn(hObject, eventdata, handles)
% Get default command line output from handles structure
varargout{1} = handles.output;

% — Executes on button press in trainrec.
function trainrec_Callback(hObject, eventdata, handles)
speaker_id = trainrec();
set(handles.train_current,‘string’,‘Hurraay,DONE!’);
speaker_iden = sprintf(‘you re speaker number %d’, speaker_id);
% set(handles.speaker,‘string’,speaker_iden);
set(handles.access,‘BackgroundColor’,‘blue’);
set(handles.access,‘string’,‘YOU HAVE ACCESS, TRAIN COMMANDS NOW!’);

% if access_ == 1
% set(handles.access,‘string’,‘YOU HAVE ACCESS, TRAIN COMMANDS NOW!’);
% else
% set(handles.access,‘string’,‘YOU DONT HAVE ACCESS,SPEAKER NOT RECOGNIZED!’);
% end
% — Executes on button press in command.
function command_Callback(hObject, eventdata, handles)
trai_pairs=30;
out_neurons=5;
hid_neurons=6;
in_nodes=13;
eata=0.1;emax=0.001;q=1;e=0;lamda=.7; t=1;
load backp.mat W V;
recObj = audiorecorder;
Fs=8000;
Nseconds = 1;

while(1)
fprintf(‘say any word immediately after hitting enter’);
input(‘’);
recordblocking(recObj, 1);
x = getaudiodata(recObj);
[kk,g] = lpc(x,12);
Z=(kk);
Z=double(Z);
p1=max(Z);
Z=Z/p1;

for p=1:trai_pairs

z=transpose(Z(p,:));

% calculate output
y=(tansig(V*(z)));
o=(tansig(W*(y)));
break
end

b=o(1);
c=o(2);
d=o(3);
e=o(4);
f=o(5);
a= max(o);
if (b==a )
    display('AHEAD');
    set(handles.ahead,'BackgroundColor','green'); 
    set(handles.command,'string','Ahead'); 
    pause(2);
elseif (c== a)
    display('STOP');
    set(handles.stop,'BackgroundColor','green'); 
    set(handles.command,'string','Stop'); 
    pause(2);
elseif (d== a)
    display('BACK');
    set(handles.back,'BackgroundColor','green'); 
    set(handles.command,'string','Back'); 
    pause(2);
elseif (e==a)
    display('LEFT');
    set(handles.left,'BackgroundColor','green'); 
    set(handles.command,'string','Left'); 
    pause(2);
elseif (f==a)
    display('RIGHT');
    set(handles.right,'BackgroundColor','green'); 
    set(handles.command,'string','Right');
    pause(2);
end
set(handles.ahead,'BackgroundColor','white');

set(handles.left,‘BackgroundColor’,‘white’);
set(handles.right,‘BackgroundColor’,‘white’);
set(handles.stop,‘BackgroundColor’,‘white’);
set(handles.back,‘BackgroundColor’,‘white’);

end
function traincommands()
Fs=8000;
Nseconds = 1;
samp=6;
words=5;
recObj = audiorecorder;
aheaddir = ‘C:\Users\Rezetane\Desktop\HRI Proj\Speech-Recognition-master\data\train_commands\ahead’;
backdir = ‘C:\Users\Rezetane\Desktop\HRI Proj\Speech-Recognition-master\data\train_commands\back’;
stopdir = ‘C:\Users\Rezetane\Desktop\HRI Proj\Speech-Recognition-master\data\train_commands\stop’;
rightdir = ‘C:\Users\Rezetane\Desktop\HRI Proj\Speech-Recognition-master\data\train_commands\right’;
leftdir = ‘C:\Users\Rezetane\Desktop\HRI Proj\Speech-Recognition-master\data\train_commands\left’;
s_right = numel(dir([rightdir ‘*.wav’]));

for i= 1:1:samp

filename = sprintf(‘%ss%d.wav’, aheaddir, i);
fprintf('Reading %ss%d ',aheaddir,i);
[x,Fs] = audioread(filename);
[s(i,:),g] = lpc(x,12);
end

for i= (samp+1):1:2*samp

filename = sprintf(‘%ss%d.wav’, stopdir, i- samp);
fprintf('Reading %ss%d ',stopdir,i);
[x,Fs] = audioread(filename);
[s(i,:),g] = lpc(x,12);
%plot(s(i,:));
end

for i= (2samp+1):1:3samp
filename = sprintf(‘%ss%d.wav’, backdir, i-2*samp);
fprintf('Reading %ss%d ',backdir,i);
[x,Fs] = audioread(filename);
[s(i,:),g] = lpc(x,12);
end

for i= (3samp+1):1:4samp
filename = sprintf(‘%ss%d.wav’, leftdir, i-3*samp);
fprintf('Reading %ss%d ',leftdir,i);
[x,Fs] = audioread(filename);
[s(i,:),g] = lpc(x,12);
end

for i= (4samp+1):1:5samp

filename = sprintf(‘%ss%d.wav’, rightdir, i- 4*samp);
fprintf('Reading %ss%d ',rightdir,i);
[x,Fs] = audioread(filename);
[s(i,:),g] = lpc(x,12);
end

S=zeros(1,13);
for i=1:1:samp
S=cat(1,S,s(i,:));
S=cat(1,S,s(samp+i,:));
S=cat(1,S,s(2samp+i,:));
S=cat(1,S,s(3samp+i,:));
S=cat(1,S,s(4*samp+i,:));
end
S(1,:)=[];
save speechp.mat S
trai_pairs=30; % 48 samples
out_neurons=5; % no of words
hid_neurons=6; %matka
in_nodes=13; %features are 13
eata=0.1;emax=0.001;q=1;e=0;lamda=.7; t=1;

load speechp.mat S

p1=max(max(S));
s=S/p1;

Z= double(s);

dummy=[1 -1 -1 -1 -1;
-1 1 -1 -1 -1;
-1 -1 1 -1 -1;
-1 -1 -1 1 -1;
-1 -1 -1 -1 1];

t=trai_pairs/out_neurons;
D=dummy;
for i= 1:1:5
D=cat(1,D,dummy);
end

⛄三、运行结果

在这里插入图片描述

⛄四、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.
[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.

3 备注
简介此部分摘自互联网，仅供参考，若侵权，联系删除

🍅 仿真咨询
1 各类智能优化算法改进及应用
生产调度、经济调度、装配线调度、充电优化、车间调度、发车优化、水库调度、三维装箱、物流选址、货位优化、公交排班优化、充电桩布局优化、车间布局优化、集装箱船配载优化、水泵组合优化、解医疗资源分配优化、设施布局优化、可视域基站和无人机选址优化

2 机器学习和深度学习方面
卷积神经网络（CNN）、LSTM、支持向量机（SVM）、最小二乘支持向量机（LSSVM）、极限学习机（ELM）、核极限学习机（KELM）、BP、RBF、宽度学习、DBN、RF、RBF、DELM、XGBOOST、TCN实现风电预测、光伏预测、电池寿命预测、辐射源识别、交通流预测、负荷预测、股价预测、PM2.5浓度预测、电池健康状态预测、水体光学参数反演、NLOS信号识别、地铁停车精准预测、变压器故障诊断

3 图像处理方面
图像识别、图像分割、图像检测、图像隐藏、图像配准、图像拼接、图像融合、图像增强、图像压缩感知

4 路径规划方面
旅行商问题（TSP）、车辆路径问题（VRP、MVRP、CVRP、VRPTW等）、无人机三维路径规划、无人机协同、无人机编队、机器人路径规划、栅格地图路径规划、多式联运运输问题、车辆协同无人机路径规划、天线线性阵列分布优化、车间布局优化

5 无人机应用方面
无人机路径规划、无人机控制、无人机编队、无人机协同、无人机任务分配

6 无线传感器定位及布局方面
传感器部署优化、通信协议优化、路由优化、目标定位优化、Dv-Hop定位优化、Leach协议优化、WSN覆盖优化、组播优化、RSSI定位优化

7 信号处理方面
信号识别、信号加密、信号去噪、信号增强、雷达信号处理、信号水印嵌入提取、肌电信号、脑电信号、信号配时优化

8 电力系统方面
微电网优化、无功优化、配电网重构、储能配置

9 元胞自动机方面
交通流人群疏散病毒扩散晶体生长

10 雷达方面
卡尔曼滤波跟踪、航迹关联、航迹融合