任务简述:
目标:开发一个能够识别单个数字(1至9)的语音识别系统。
技术栈:
MFCC:这是一种声音信号处理技术,主要用于提取语音信号中的特征。MFCC反映了人类耳朵的实际听觉感受,适用于声音数据的特征提取,特别是在语音识别中。
DTW:动态时间规整技术用于测量两个时间序列之间的相似度,即使它们在速度上不一致。在语音识别中,DTW帮助匹配测试样本与已知模板之间的差异,从而识别出最接近的数字。
实施步骤:
数据准备:收集1到9的数字音频样本,存储为WAV格式。
(
再单独收集test音频样本,储存为WAV格式数据。
特征提取:对每个数字的音频样本使用MATLAB的mfcc函数提取MFCC特征。
模板创建:为每个数字生成一个模板,基于其MFCC特征。
测试与匹配:使用DTW算法比较一个未知数字音频的MFCC特征与所有模板的MFCC特征,找出最匹配的模板。
结果识别:系统根据最小DTW距离确定并输出识别的数字。
代码:
% 预设变量
rng(3); % 设置随机种子
numDigits = 9; % 数字的总数(1到9)
baseFolder = 'C:\MyZbook\NLP\0-9\data'; % 替换为你的音频文件的存储路径
sampleFiles = arrayfun(@(n) fullfile(baseFolder, sprintf('%d.wav', n)), 1:numDigits, 'UniformOutput', false);
% 加载和计算每个数字音频的 MFCC
mfccCells = cell(1, numDigits);
for i = 1:numDigits
[y, Fs] = audioread(sampleFiles{i});
mfccCells{i} = mfcc(y, Fs);
end
% 加载指定的测试文件
testFile = 'C:\MyZbook\NLP\0-9\test\test6.wav';% 替换为你的音频文件的存储路径
[yTest, FsTest] = audioread(testFile);
mfccTest = mfcc(yTest, FsTest);
% 初始化 DTW 距离数组
dtwDistances = zeros(1, numDigits);
% 计算测试样本与每个数字模板的 DTW 距离
for i = 1:numDigits
sumDist = 0;
for j = 1:size(mfccTest, 2) % 遍历每个系数列
sumDist = sumDist + dtw(mfccTest(:, j), mfccCells{i}(:, j));
end
dtwDistances(i) = sumDist;
end
% 找出最小 DTW 距离对应的数字
[~, recognizedDigit] = min(dtwDistances);
% 输出识别结果
fprintf('识别到的数字: %d\n', recognizedDigit);