MATLAB实现DTW算法识别单个数字（1至9）的语音识别系统

嘶风SIFENG

已于 2024-05-15 10:40:17 修改

阅读量480

点赞数 7

文章标签： matlab 算法语音识别

于 2024-04-28 09:59:17 首次发布

本文链接：https://blog.csdn.net/overexposedshen/article/details/138268777

版权

任务简述：

目标：开发一个能够识别单个数字（1至9）的语音识别系统。

技术栈：

MFCC：这是一种声音信号处理技术，主要用于提取语音信号中的特征。MFCC反映了人类耳朵的实际听觉感受，适用于声音数据的特征提取，特别是在语音识别中。
DTW：动态时间规整技术用于测量两个时间序列之间的相似度，即使它们在速度上不一致。在语音识别中，DTW帮助匹配测试样本与已知模板之间的差异，从而识别出最接近的数字。

实施步骤：

数据准备：收集1到9的数字音频样本，存储为WAV格式。

（

再单独收集test音频样本，储存为WAV格式数据。

特征提取：对每个数字的音频样本使用MATLAB的mfcc函数提取MFCC特征。
模板创建：为每个数字生成一个模板，基于其MFCC特征。
测试与匹配：使用DTW算法比较一个未知数字音频的MFCC特征与所有模板的MFCC特征，找出最匹配的模板。
结果识别：系统根据最小DTW距离确定并输出识别的数字。

代码：

% 预设变量
rng(3);  % 设置随机种子
numDigits = 9;  % 数字的总数（1到9）


baseFolder = 'C:\MyZbook\NLP\0-9\data';  % 替换为你的音频文件的存储路径


sampleFiles = arrayfun(@(n) fullfile(baseFolder, sprintf('%d.wav', n)), 1:numDigits, 'UniformOutput', false);

% 加载和计算每个数字音频的 MFCC
mfccCells = cell(1, numDigits);
for i = 1:numDigits
    [y, Fs] = audioread(sampleFiles{i});
    mfccCells{i} = mfcc(y, Fs);
end



% 加载指定的测试文件
testFile = 'C:\MyZbook\NLP\0-9\test\test6.wav';% 替换为你的音频文件的存储路径



[yTest, FsTest] = audioread(testFile);
mfccTest = mfcc(yTest, FsTest);

% 初始化 DTW 距离数组
dtwDistances = zeros(1, numDigits);

% 计算测试样本与每个数字模板的 DTW 距离
for i = 1:numDigits
    sumDist = 0;
    for j = 1:size(mfccTest, 2)  % 遍历每个系数列
        sumDist = sumDist + dtw(mfccTest(:, j), mfccCells{i}(:, j));
    end
    dtwDistances(i) = sumDist;
end

% 找出最小 DTW 距离对应的数字
[~, recognizedDigit] = min(dtwDistances);

% 输出识别结果
fprintf('识别到的数字: %d\n', recognizedDigit);