【语音识别】男女声识别【含Matlab源码 452期】

Matlab仿真科研站

于 2024-07-15 13:36:34 发布

阅读量651

点赞数 11

分类专栏： Matlab语音处理（仿真科研站版）文章标签： matlab

本文链接：https://blog.csdn.net/Matlab912100926/article/details/140436543

版权

Matlab语音处理（仿真科研站版）专栏收录该内容

101 篇文章 0 订阅

订阅专栏

💥💥💞💞欢迎来到Matlab仿真科研站博客之家💞💞💥💥

✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。

🍎个人主页：Matlab仿真科研站博客之家

🏆代码获取方式：
💥扫描文章底部QQ二维码💥

⛳️座右铭：行百里者，半于九十；路漫漫其修远兮，吾将上下而求索。
在这里插入图片描述

⛄更多Matlab语音处理（仿真科研站版）仿真内容点击👇
Matlab语音处理（仿真科研站版）

⛄一、简介

一般来说,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

1 基于语音学和声学的方法
该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。
通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：
第一步，分段和标号
把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号
第二步，得到词序列
根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。

2 模板匹配的方法

模板匹配的方法发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫（hmm）理论、矢量量化（VQ）技术。
（1）动态时间规整(DTW)
语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素) 的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW：Dynamic Time Warping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不均匀地扭曲或弯折，以使其特征与模型特征对正。
动态时间规整是将时间规整和距离测度结合起来的一种非线性规整技术。设测试语音参数共有N帧矢量，而参考模板共有M帧矢量，且N ≠M。要找时间规整函数j = w(i) ，使测试矢量的时间轴 i 非线性地映射到模板的时间轴 j 上,并满足：式中d[ T(i) ,R(ω(i) ) ]是第 i 帧测试矢量T(i) 和第 j 帧模板矢量R(j) 之间的距离测度。 D 则是在最优情况下的两矢量之间的匹配路径。一般情况下，DTW采用逆向思路，从过程的最后阶段开始，逆推到起始点，寻找其中的最优路径。

（2）隐马尔可夫法(HMM)
隐马尔可夫法(HMM) 是70年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。HMM 方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于HMM模型的。HMM是对语音信号的时间序列结构建立统计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的Markov 链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，是由大脑根据语法知识和言语需要(不可观测的状态) 发出的音素的参数流。可见HMM合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。
HMM语音模型λ(π,A ,B) 由起始状态概率(π) 、状态转移概率(A) 和观测序列概率(B) 三个参数决定。π揭示了HMM 的拓扑结构，A 描述了语音信号随时间的变化情况，B 给出了观测序列的统计特性。
经典HMM语音识别的一般过程是：用前向后向算法(Forward - Backward) 通过递推方法计算已知模型输出O 及模型λ= f (π,A ,B) 时的产生输出序列的概率P(O|λ)，然后用Baum-Welch 算法，基于最大似然准则(ML) 对模型参数λ(π,A ,B) 进行修正，最优参数λ的求解可表示为λ= argmax{P(O|λ) } 。最后用Viterbi算法解出产生输出序列的最佳状态转移序列 X。所谓最佳是以 X 的最大条件后验概率为准则，即X =arg max{P(X| O ,λ) }。

（3）矢量量化(VQ)
矢量量化(Vector Quantization) 是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是：将语音信号波形的 k 个样点的每一帧，或有k 个参数的每一参数帧，构成 k 维空间中的一个矢量，然后对矢量进行量化。量化时，将 k 维无限空间划分为 M 个区域边界，然后将输入矢量与这些边界进行比较，并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。失真测度主要有均方误差(即欧氏距离) 、加权的均方误差、Itakura2Saito距离、似然比失真测度等。初始码书的生成可以是随机选取、分裂生成法、乘积码书法[4]。在选定了失真测度和初始码书后，就用LBG算法，对初始码书进行迭代优化,一直到系统性能满足要求或不再有明显的改进为止。
核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其它信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。
在实际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

3 神经网络的方法
利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。
由于ANN不能很好的描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别。
ANN与DTW：
ANN纳入DTW框架中的最简单方法就是利用多层感知器模型(MLP)计算DTW搜索中的局部路径得分。
ANN与HMM：
1）多层感知器网络来估计隐马尔可夫模型的状态概率输出的方法
2）BP算法实现HMM模型参数的重估
3）利用自组织神经网络Kohonen的学习矢量量化算法训练产生矢量量化码本

⛄二、部分源代码

%filename:manwoman.m
%different man from woman.
%===========================================================
clear;
if nargin<1;action=‘initialized’;end;
[fname,pname]=uigetfile('.wav’,‘Open Wave File’);
file=[pname,fname];
[x,fs,bits]=wavread(file); % 读入声音文件（.wav）
sound(x,fs,bits); % 数据通过声卡转换为声音
%===========================================================
% pause;
data1=x(:,1);
n=0:length(x)-1;
time=n/fs;
subplot(3,1,1) % 绘制2行1列的第1张子图
plot(time,data1) % 以时间为横轴，数据为纵轴作图
xlabel(‘Time (sec.)’) % 标注横坐标
ylabel(‘Signal Level (Volts)’) % 标注纵坐标
grid on % 添加网格
% pause;
% 对采集数据作滤波处理
blocksize =length(data1); % 计算窗函数长度
window = hanning(blocksize); % 计算汉宁窗函数(此函数为MATLAB自带)
data2=window.data1; % 对数据先作加窗处理
% wp=[70,400]; %100Hz–400Hz
% wp=wp2/fs;
wp=30002/fs;
[b,a]=ellip(4,0.1,20,wp); % 构造椭圆滤波器
data=filter(b,a,data2); % 求加窗处理后的数据经过滤波器的响应
subplot(3,1,2) % 绘制2行1列的第1张子图
plot(time,data) % 以时间为横轴，数据为纵轴作图
xlabel(‘Time (sec.)’) % 标注横坐标
%ylabel(‘Signal Level (Volts)’) % 标注纵坐标
grid on % 添加网格
% pause;
[xmax,index]=max(data1);
timewin=floor(0.015fs);
xwin=data1(index-timewin:index+timewin);
[y,lags]=xcov(xwin);
subplot(3,1,3)
plot(lags,y)
grid on

⛄三、运行结果

在这里插入图片描述

⛄四、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.
[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.

3 备注
简介此部分摘自互联网，仅供参考，若侵权，联系删除

🍅 仿真咨询
1 各类智能优化算法改进及应用
1.1 PID优化
1.2 VMD优化
1.3 配电网重构
1.4 三维装箱
1.5 微电网优化
1.6 优化布局
1.7 优化参数
1.8 优化成本
1.9 优化充电
1.10 优化调度
1.11 优化电价
1.12 优化发车
1.13 优化分配
1.14 优化覆盖
1.15 优化控制
1.16 优化库存
1.17 优化路由
1.18 优化设计
1.19 优化位置
1.20 优化吸波
1.21 优化选址
1.22 优化运行
1.23 优化指派
1.24 优化组合
1.25 车间调度
1.26 生产调度
1.27 经济调度
1.28 装配线调度
1.29 水库调度
1.30 货位优化
1.31 公交排班优化
1.32 集装箱船配载优化
1.33 水泵组合优化
1.34 医疗资源分配优化
1.35 可视域基站和无人机选址优化

2 机器学习和深度学习分类与预测
2.1 机器学习和深度学习分类
2.1.1 BiLSTM双向长短时记忆神经网络分类
2.1.2 BP神经网络分类
2.1.3 CNN卷积神经网络分类
2.1.4 DBN深度置信网络分类
2.1.5 DELM深度学习极限学习机分类
2.1.6 ELMAN递归神经网络分类
2.1.7 ELM极限学习机分类
2.1.8 GRNN广义回归神经网络分类
2.1.9 GRU门控循环单元分类
2.1.10 KELM混合核极限学习机分类
2.1.11 KNN分类
2.1.12 LSSVM最小二乘法支持向量机分类
2.1.13 LSTM长短时记忆网络分类
2.1.14 MLP全连接神经网络分类
2.1.15 PNN概率神经网络分类
2.1.16 RELM鲁棒极限学习机分类
2.1.17 RF随机森林分类
2.1.18 SCN随机配置网络模型分类
2.1.19 SVM支持向量机分类
2.1.20 XGBOOST分类

2.2 机器学习和深度学习预测
2.2.1 ANFIS自适应模糊神经网络预测
2.2.2 ANN人工神经网络预测
2.2.3 ARMA自回归滑动平均模型预测
2.2.4 BF粒子滤波预测
2.2.5 BiLSTM双向长短时记忆神经网络预测
2.2.6 BLS宽度学习神经网络预测
2.2.7 BP神经网络预测
2.2.8 CNN卷积神经网络预测
2.2.9 DBN深度置信网络预测
2.2.10 DELM深度学习极限学习机预测
2.2.11 DKELM回归预测
2.2.12 ELMAN递归神经网络预测
2.2.13 ELM极限学习机预测
2.2.14 ESN回声状态网络预测
2.2.15 FNN前馈神经网络预测
2.2.16 GMDN预测
2.2.17 GMM高斯混合模型预测
2.2.18 GRNN广义回归神经网络预测
2.2.19 GRU门控循环单元预测
2.2.20 KELM混合核极限学习机预测
2.2.21 LMS最小均方算法预测
2.2.22 LSSVM最小二乘法支持向量机预测
2.2.23 LSTM长短时记忆网络预测
2.2.24 RBF径向基函数神经网络预测
2.2.25 RELM鲁棒极限学习机预测
2.2.26 RF随机森林预测
2.2.27 RNN循环神经网络预测
2.2.28 RVM相关向量机预测
2.2.29 SVM支持向量机预测
2.2.30 TCN时间卷积神经网络预测
2.2.31 XGBoost回归预测
2.2.32 模糊预测
2.2.33 奇异谱分析方法SSA时间序列预测

2.3 机器学习和深度学习实际应用预测
CPI指数预测、PM2.5浓度预测、SOC预测、财务预警预测、产量预测、车位预测、虫情预测、带钢厚度预测、电池健康状态预测、电力负荷预测、房价预测、腐蚀率预测、故障诊断预测、光伏功率预测、轨迹预测、航空发动机寿命预测、汇率预测、混凝土强度预测、加热炉炉温预测、价格预测、交通流预测、居民消费指数预测、空气质量预测、粮食温度预测、气温预测、清水值预测、失业率预测、用电量预测、运输量预测、制造业采购经理指数预测

3 图像处理方面
3.1 图像边缘检测
3.2 图像处理
3.3 图像分割
3.4 图像分类
3.5 图像跟踪
3.6 图像加密解密
3.7 图像检索
3.8 图像配准
3.9 图像拼接
3.10 图像评价
3.11 图像去噪
3.12 图像融合
3.13 图像识别
3.13.1 表盘识别
3.13.2 车道线识别
3.13.3 车辆计数
3.13.4 车辆识别
3.13.5 车牌识别
3.13.6 车位识别
3.13.7 尺寸检测
3.13.8 答题卡识别
3.13.9 电器识别
3.13.10 跌倒检测
3.13.11 动物识别
3.13.12 二维码识别
3.13.13 发票识别
3.13.14 服装识别
3.13.15 汉字识别
3.13.16 红绿灯识别
3.13.17 虹膜识别
3.13.18 火灾检测
3.13.19 疾病分类
3.13.20 交通标志识别
3.13.21 卡号识别
3.13.22 口罩识别
3.13.23 裂缝识别
3.13.24 目标跟踪
3.13.25 疲劳检测
3.13.26 旗帜识别
3.13.27 青草识别
3.13.28 人脸识别
3.13.29 人民币识别
3.13.30 身份证识别
3.13.31 手势识别
3.13.32 数字字母识别
3.13.33 手掌识别
3.13.34 树叶识别
3.13.35 水果识别
3.13.36 条形码识别
3.13.37 温度检测
3.13.38 瑕疵检测
3.13.39 芯片检测
3.13.40 行为识别
3.13.41 验证码识别
3.13.42 药材识别
3.13.43 硬币识别
3.13.44 邮政编码识别
3.13.45 纸牌识别
3.13.46 指纹识别

3.14 图像修复
3.15 图像压缩
3.16 图像隐写
3.17 图像增强
3.18 图像重建

4 路径规划方面
4.1 旅行商问题（TSP）
4.1.1 单旅行商问题（TSP）
4.1.2 多旅行商问题（MTSP）
4.2 车辆路径问题（VRP）
4.2.1 车辆路径问题（VRP）
4.2.2 带容量的车辆路径问题（CVRP）
4.2.3 带容量+时间窗+距离车辆路径问题（DCTWVRP）
4.2.4 带容量+距离车辆路径问题（DCVRP）
4.2.5 带距离的车辆路径问题（DVRP）
4.2.6 带充电站+时间窗车辆路径问题（ETWVRP）
4.2.3 带多种容量的车辆路径问题（MCVRP）
4.2.4 带距离的多车辆路径问题（MDVRP）
4.2.5 同时取送货的车辆路径问题（SDVRP）
4.2.6 带时间窗+容量的车辆路径问题（TWCVRP）
4.2.6 带时间窗的车辆路径问题（TWVRP）
4.3 多式联运运输问题

4.4 机器人路径规划
4.4.1 避障路径规划
4.4.2 迷宫路径规划
4.4.3 栅格地图路径规划

4.5 配送路径规划
4.5.1 冷链配送路径规划
4.5.2 外卖配送路径规划
4.5.3 口罩配送路径规划
4.5.4 药品配送路径规划
4.5.5 含充电站配送路径规划
4.5.6 连锁超市配送路径规划
4.5.7 车辆协同无人机配送路径规划

4.6 无人机路径规划
4.6.1 飞行器仿真
4.6.2 无人机飞行作业
4.6.3 无人机轨迹跟踪
4.6.4 无人机集群仿真
4.6.5 无人机三维路径规划
4.6.6 无人机编队
4.6.7 无人机协同任务
4.6.8 无人机任务分配

5 语音处理
5.1 语音情感识别
5.2 声源定位
5.3 特征提取
5.4 语音编码
5.5 语音处理
5.6 语音分离
5.7 语音分析
5.8 语音合成
5.9 语音加密
5.10 语音去噪
5.11 语音识别
5.12 语音压缩
5.13 语音隐藏

6 元胞自动机方面
6.1 元胞自动机病毒仿真
6.2 元胞自动机城市规划
6.3 元胞自动机交通流
6.4 元胞自动机气体
6.5 元胞自动机人员疏散
6.6 元胞自动机森林火灾
6.7 元胞自动机生命游戏

7 信号处理方面
7.1 故障信号诊断分析
7.1.1 齿轮损伤识别
7.1.2 异步电机转子断条故障诊断
7.1.3 滚动体内外圈故障诊断分析
7.1.4 电机故障诊断分析
7.1.5 轴承故障诊断分析
7.1.6 齿轮箱故障诊断分析
7.1.7 三相逆变器故障诊断分析
7.1.8 柴油机故障诊断

7.2 雷达通信
7.2.1 FMCW仿真
7.2.2 GPS抗干扰
7.2.3 雷达LFM
7.2.4 雷达MIMO
7.2.5 雷达测角
7.2.6 雷达成像
7.2.7 雷达定位
7.2.8 雷达回波
7.2.9 雷达检测
7.2.10 雷达数字信号处理
7.2.11 雷达通信
7.2.12 雷达相控阵
7.2.13 雷达信号分析
7.2.14 雷达预警
7.2.15 雷达脉冲压缩
7.2.16 天线方向图
7.2.17 雷达杂波仿真

7.3 生物电信号
7.3.1 肌电信号EMG
7.3.2 脑电信号EEG
7.3.3 心电信号ECG
7.3.4 心脏仿真

7.4 通信系统
7.4.1 DOA估计
7.4.2 LEACH协议
7.4.3 编码译码
7.4.4 变分模态分解
7.4.5 超宽带仿真
7.4.6 多径衰落仿真
7.4.7 蜂窝网络
7.4.8 管道泄漏
7.4.9 经验模态分解
7.4.10 滤波器设计
7.4.11 模拟信号传输
7.4.12 模拟信号调制
7.4.13 数字基带信号
7.4.14 数字信道
7.4.15 数字信号处理
7.4.16 数字信号传输
7.4.17 数字信号去噪
7.4.18 水声通信
7.4.19 通信仿真
7.4.20 无线传输
7.4.21 误码率仿真
7.4.22 现代通信
7.4.23 信道估计
7.4.24 信号检测
7.4.25 信号融合
7.4.26 信号识别
7.4.27 压缩感知
7.4.28 噪声仿真
7.4.29 噪声干扰