【语音识别】CFCC语音识别【含Matlab源码 4171期】

最新推荐文章于 2024-07-14 00:16:27 发布

Matlab仿真科研站

最新推荐文章于 2024-07-14 00:16:27 发布

阅读量311

点赞数 3

分类专栏： Matlab语音处理（仿真科研站版）文章标签： matlab

本文链接：https://blog.csdn.net/Matlab912100926/article/details/140355311

版权

Matlab语音处理（仿真科研站版）专栏收录该内容

101 篇文章 0 订阅

订阅专栏

💥💥💞💞欢迎来到Matlab仿真科研站博客之家💞💞💥💥

✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。

🍎个人主页：Matlab仿真科研站博客之家

🏆代码获取方式：
💥扫描文章底部QQ二维码💥

⛳️座右铭：行百里者，半于九十；路漫漫其修远兮，吾将上下而求索。
在这里插入图片描述

⛄更多Matlab语音处理（仿真科研站版）仿真内容点击👇
Matlab语音处理（仿真科研站版）

⛄一、CFCC语音识别简介

1 语音识别系统发展
语音识别的研究工作起步于上个世纪 50 年代。90 年代开始，语音识别技术逐渐从实验室走向应用。根据其实用化的需要，人耳听觉模型的研究逐渐为学者所重视，出现了不同类型的基于听觉模型的参数：感知加权线性预测参数(Perceptual Linear Predictive，PLP)、梅尔频率倒谱系数(Mel Frequency Cepstrun Coefficient，MFCC)、Gammatone 滤波器参数、Gammachirp 滤波器参数[1][2]。同时出现了一批比较成功的语音识别软件：IBM的 ViaVioce，Microsoft 的 SpeechSDK，Google 的 Google Speech API，Nuance 的 Naturally Speaking 以及开源语音识别系统 HTK，Sphinx[3]和 Julius。进入 21 世纪后随着电子产品的普及，嵌入式语音处理技术迅速发展。语音识别技术也顺势进入该领域，其表现形式为出现独立的语音识别芯片如 Sensory 公司的 Rsc 系列语音识别芯片、Infineon 公司的 Unispeech 和 Unilite 语音芯片等；或者为语音识别软件出现嵌入式版本分支，例如 SpeechSDK，Google Speech API，Sphinx 等先后实现对嵌入式设备的支持。我国语音识别研究工作一直紧跟国际水平，国内的语音识别始于七十年代，国家也很重视，并把大词汇量语音识别的研究列入“863”计划，由中科院声学所、自动化所及清华大学等单位研究开发[4]。经过四十余年的发展，汉语语音识别领域取得了丰硕的成果。在实用方面，也涌现出不少以语音识别技术为核心的公司，例如语音识别芯片提供商 ICRoute，语音识别引擎提供商科大讯飞。
语音识别技术以其极具诱惑力的发展潜力，吸引了国内外一批又一批学者投入其中，并且取得了很大的成就，部分技术已经走出实验室进入实用化阶段，很大的鼓舞了研究人员的热情，然而其发展并非一帆风顺，现在还有许多困难需要解决：
1．噪声环境：由于环境复杂、噪声源较多，使得在实验室环境下可以轻松识别的系统应用在实际环境中识别率明显下降[5]；
2．连续语音：汉语连续语音的连续程度高，协同发音现象严重，表现为孤立词汇识别率很高，而在连续语音条件下识别率下降[6]；
3．非特定人：系统对用户具有“选择性”，目前商业化的软件大多需要进行繁琐的“训练”，使语音识别系统可以针对性的对用户语音进行识别，一旦更换系统或用户，则需要重新“训练”，为用户使用带来诸多不便[7]。

2 语音识别关键技术
目前大多数语音识别技术是基于统计模式的。从语音产生机理来看，语音识别可以分为语音层和语言层两部分，基于这种模式的语音识别系统包括四个部分：特征提取，声学模型训练，语言模型训练和搜索算法[7]。尝试解决当前语音识别技术所面临的的困难，可以从以下几个方面入手：
(1) 语音特征：声学模型是语音识别最底层的模型，代表着语音学信息，是系统中的关键部分。声学模型建模时训练单元的区分能力，直接取决于特征提取方法的优劣。特征提取要求提取的特征不但能够有效的降低数字语音信号的数据量，还要保证包含原始语音的全部有效信息。另外，特征提取最好还能够具有抗噪性，这样就可以从源头上保证语音识别系统的鲁棒性[7]。
(2) 说话人适应性：每个人的语音中不但包含语言信息，还包含个人特征信息，目前的语音识别系统无法将两者有效区分。对于特定人的语音识别系统，它采集特定人的语音，进行训练、识别，其识别率一般可以达到 90%以上。然而对于非特定人识别，由于语音中个人特征的影响，造成训练语音库和测试语音库总会存在差异，训练语音库不能全面覆盖和反映测试语音库的语音[5]。通常通过下面的方法解决此类问题：其一，深入研究语音发音机理，从中找出与说话人无关的反映语音—文本对应关系的参数序列，本质上是寻找一种语音特征参数，可以包含原始语音的全部语音学信息，而剔除说话人的个性信息[4][8]。其二，增大训练集的规模，使之涵盖尽可能多的发音人的声学特征，从而减小个性信息的影响，由于这需要很大的语料库而且训练时间太长，影响实用性，故这种方式不予推荐[7]。
(3) 语法知识的利用。选择合适的语法知识可以明显的纠正音素序列的错误判别，降低最终语句的错误识别数。实际上，连续语音识别系统或多或少结合了某种语法知识。语法知识定义越清楚、应用越充分，系统的识别率就会越高。目前典型的用于描述语法规则结构的方法是使用状态树转移结构的统计模式。

3 语音识别在物联网上应用
1999年美国麻省理工学院的Auto-ID实验室首次提出物联网(Internet of Things， IoT)的概念。在物联网的发展过程中其内涵几经变化，目前认为物联网指将所有物体通过信息传感设备如射频识别、全球定位系统、红外感应器等与互联网相结合，形成一个智能化识别和管理的网络。其目的是让所有的物品都与网络连接在一起，方便识别和管理。物联网的核心是实现物体(包含人)之间的互连，从而能够实现物体与物体之间的信息交换和通信。物体信息通过网络传输到信息处理中心后可实现各种信息服务和应用。物联网被预言为继互联网之后全球信息产业的又一次科技与经济浪潮，受到各国政府、企业和学术界的重视[10][11]。
物联网的应用领域主要包括物流监控、污染监控、远程医疗、智能交通和智能家居等。其中，智能家居是以住宅为平台，兼备建筑、网络通信、信息家电、设备自动化，集系统、结构、服务、管理为一体的高效、舒适、安全、便利、环保的居住环境。智能家居因其应用前景广阔、潜在市场需求巨大且发展迅猛而受到厂商的广泛关注[12]。目前，大多数智能家居系统的人机交互是通过键盘、触摸屏和 LCD 来完成[13][14]。对用户的操作地点、交互方式有很大的限制。本文中，尝试将语音识别系统应用到智能家居系统中，使用户可以通过语音来完成和智能家居系统的交互，即构建人机语音交互的智能家居系统。该系统将用户从传统的利用手和眼的交互方式中解放出来，可以在不
固定的地点，不中断用户当前行为的情况下利用语音信号以非接触式完成对系统的操作。

4 研究内容
本文主要内容集中在三个方面，如图 1.1 所示：
在这里插入图片描述
第一：目前基于 MFCC 和 GFCC(Gammatone Frequency Cepstrum Coefficient)的语音
识别系统噪声鲁棒性较差。本文将深入学习基于听觉模型的耳蜗倒谱系数(Cochlea
Feature Cepstral Coeffieients，CFCC)的定义及各个环节的意义，在 MATLAB 环境下对该
参数进行仿真研究，分步论述 CFCC 的提取方法及实现过程。然后在不同信噪比条件下，
与 MFCC 和 GFCC 进行对比，观察其抗噪性是否优于他们。

4.1 典型语音识别系统构成
典型语音识别系统主要由三部分构成，系统示意图如下：
在这里插入图片描述
4.1.1 预处理
人类的语音信号是由肺部的收缩，压迫气流由支气管经过声门和声道引起音频振荡而产生的一种声波。通常认为语音信号的信息主要集中在40-4kHz的范围内[15]。
声波是机械波，数字电路系统对语音进行处理，首先需要将其转换为数字信号，并确定有效语音数据段，该过程即预处理，一般包括预滤波(抗混叠滤波)、量化、预加重和端点检测。
(一) 预滤波
根据奈奎斯特采样定律可知，采样频率应为输入带限信号最高频率的二倍以上。考虑到在噪音环境中宽带随机噪声叠加的结果，使得语音信号可能包含4kHz以上频率成分，为了防止频谱混叠，必须在采样前进行一次预滤波去掉有效信号之外的高频噪音。预滤波还有一个目的是避免50Hz的工频干扰，因此预滤波是一个带通滤波器，其下截止频率fL =50Hz，上截止频率 fH则根据需要定义。本中采样频率为16kHz，上截止频率为fH =4kHz。
(二) 采样及量化
采样是将连续时间的语音信号转换成离散时间信号，采样之后的语音数据是离散时间的模拟数据，利用计算机进行存储和处理则要经过量化，即AD转换。原信号和量化后的信号的差值称为量化误差。量化时，采用较大的量化级数来记录采样点的幅度，则量化误差越小，但相应的就会增加存储容量和处理时的计算量，因此要根据需求选择合理的量化级数[15]。本文中量化级数为16，即每个采样点为16bit。
(三) 预加重
由于语音信号的平均功率谱受声门激励和嘴唇辐射的影响，高频端在 800Hz 以上按6dB 倍频程跌落。预加重的目的是提升高频部分，使信号的频谱变得平坦，保证可以在低频到高频的整个频带中用同样的信噪比求频谱，以便进行频谱分析或声道参数分析[15]。
(四) 端点检测
语音信号的端点检测是语音处理中常常涉及的问题。实验表明，准确地检测出语音信号的端点不但可以减少后续处理的计算量，而且一定程度上影响整个系统的性能。目前常用的端点检测方法是基于短时能量和短时平均过零率的检测方法(也称作双门限比较法)。

4.1.2 特征提取
在完成对语音信号的预处理后，就得到了有效语音信号的时域采样信号了。如果以时域采样信号直接进行匹配运算，无论从计算量还是计算效果来看都是不理想的。特征提取则是将这些采样信号转换为能更好地表述该语音信号特性并且数据量较小的特征帧。
人的听觉系统在听音辨物方面有独特的优越性，且具有优良的抗噪声性能，它能在极低的信噪比下有效提取目标语音特征，因此基于人耳听觉模型的语音特征提取方法日益受到重视[2]。其MFCC、Gammatone滤波器特征参数、Gammachirp滤波器特征参数都是典型的基于听觉模型的特征参数[16]

⛄二、部分源代码

%文件说明：对提取CFCC参数的函数进行测试
%功能说明：提取语音数据，设置好参数，调用adai_CFCC函数进行CFCC特征参数提取。

dat = audioread(‘test.wav’); %读取音频文件
figure;
plot(dat);
title(‘原始音频数据’);
sig = adai_vad(dat); %端点检测
figure;
plot(sig);
title(‘进行端点检测后的音频数据’);
fL = 250; %该处取值需要和adai_AT_filterbank.m中fc数组的最小数值一样
N = 1024;
alf = 3;
beta = 0.2;
thyta = 0;
Y = adai_CFCC(sig,fL,N,alf,beta,thyta);

⛄三、运行结果

在这里插入图片描述

⛄四、matlab版本及参考文献

1 matlab版本
2014a

2 参考文献
[1]韩纪庆,张磊,郑铁然.语音信号处理（第3版）[M].清华大学出版社，2019.
[2]柳若边.深度学习:语音识别技术实践[M].清华大学出版社，2019.

3 备注
简介此部分摘自互联网，仅供参考，若侵权，联系删除

🍅 仿真咨询
1 各类智能优化算法改进及应用
1.1 PID优化
1.2 VMD优化
1.3 配电网重构
1.4 三维装箱
1.5 微电网优化
1.6 优化布局
1.7 优化参数
1.8 优化成本
1.9 优化充电
1.10 优化调度
1.11 优化电价
1.12 优化发车
1.13 优化分配
1.14 优化覆盖
1.15 优化控制
1.16 优化库存
1.17 优化路由
1.18 优化设计
1.19 优化位置
1.20 优化吸波
1.21 优化选址
1.22 优化运行
1.23 优化指派
1.24 优化组合
1.25 车间调度
1.26 生产调度
1.27 经济调度
1.28 装配线调度
1.29 水库调度
1.30 货位优化
1.31 公交排班优化
1.32 集装箱船配载优化
1.33 水泵组合优化
1.34 医疗资源分配优化
1.35 可视域基站和无人机选址优化

2 机器学习和深度学习分类与预测
2.1 机器学习和深度学习分类
2.1.1 BiLSTM双向长短时记忆神经网络分类
2.1.2 BP神经网络分类
2.1.3 CNN卷积神经网络分类
2.1.4 DBN深度置信网络分类
2.1.5 DELM深度学习极限学习机分类
2.1.6 ELMAN递归神经网络分类
2.1.7 ELM极限学习机分类
2.1.8 GRNN广义回归神经网络分类
2.1.9 GRU门控循环单元分类
2.1.10 KELM混合核极限学习机分类
2.1.11 KNN分类
2.1.12 LSSVM最小二乘法支持向量机分类
2.1.13 LSTM长短时记忆网络分类
2.1.14 MLP全连接神经网络分类
2.1.15 PNN概率神经网络分类
2.1.16 RELM鲁棒极限学习机分类
2.1.17 RF随机森林分类
2.1.18 SCN随机配置网络模型分类
2.1.19 SVM支持向量机分类
2.1.20 XGBOOST分类

2.2 机器学习和深度学习预测
2.2.1 ANFIS自适应模糊神经网络预测
2.2.2 ANN人工神经网络预测
2.2.3 ARMA自回归滑动平均模型预测
2.2.4 BF粒子滤波预测
2.2.5 BiLSTM双向长短时记忆神经网络预测
2.2.6 BLS宽度学习神经网络预测
2.2.7 BP神经网络预测
2.2.8 CNN卷积神经网络预测
2.2.9 DBN深度置信网络预测
2.2.10 DELM深度学习极限学习机预测
2.2.11 DKELM回归预测
2.2.12 ELMAN递归神经网络预测
2.2.13 ELM极限学习机预测
2.2.14 ESN回声状态网络预测
2.2.15 FNN前馈神经网络预测
2.2.16 GMDN预测
2.2.17 GMM高斯混合模型预测
2.2.18 GRNN广义回归神经网络预测
2.2.19 GRU门控循环单元预测
2.2.20 KELM混合核极限学习机预测
2.2.21 LMS最小均方算法预测
2.2.22 LSSVM最小二乘法支持向量机预测
2.2.23 LSTM长短时记忆网络预测
2.2.24 RBF径向基函数神经网络预测
2.2.25 RELM鲁棒极限学习机预测
2.2.26 RF随机森林预测
2.2.27 RNN循环神经网络预测
2.2.28 RVM相关向量机预测
2.2.29 SVM支持向量机预测
2.2.30 TCN时间卷积神经网络预测
2.2.31 XGBoost回归预测
2.2.32 模糊预测
2.2.33 奇异谱分析方法SSA时间序列预测

2.3 机器学习和深度学习实际应用预测
CPI指数预测、PM2.5浓度预测、SOC预测、财务预警预测、产量预测、车位预测、虫情预测、带钢厚度预测、电池健康状态预测、电力负荷预测、房价预测、腐蚀率预测、故障诊断预测、光伏功率预测、轨迹预测、航空发动机寿命预测、汇率预测、混凝土强度预测、加热炉炉温预测、价格预测、交通流预测、居民消费指数预测、空气质量预测、粮食温度预测、气温预测、清水值预测、失业率预测、用电量预测、运输量预测、制造业采购经理指数预测

3 图像处理方面
3.1 图像边缘检测
3.2 图像处理
3.3 图像分割
3.4 图像分类
3.5 图像跟踪
3.6 图像加密解密
3.7 图像检索
3.8 图像配准
3.9 图像拼接
3.10 图像评价
3.11 图像去噪
3.12 图像融合
3.13 图像识别
3.13.1 表盘识别
3.13.2 车道线识别
3.13.3 车辆计数
3.13.4 车辆识别
3.13.5 车牌识别
3.13.6 车位识别
3.13.7 尺寸检测
3.13.8 答题卡识别
3.13.9 电器识别
3.13.10 跌倒检测
3.13.11 动物识别
3.13.12 二维码识别
3.13.13 发票识别
3.13.14 服装识别
3.13.15 汉字识别
3.13.16 红绿灯识别
3.13.17 虹膜识别
3.13.18 火灾检测
3.13.19 疾病分类
3.13.20 交通标志识别
3.13.21 卡号识别
3.13.22 口罩识别
3.13.23 裂缝识别
3.13.24 目标跟踪
3.13.25 疲劳检测
3.13.26 旗帜识别
3.13.27 青草识别
3.13.28 人脸识别
3.13.29 人民币识别
3.13.30 身份证识别
3.13.31 手势识别
3.13.32 数字字母识别
3.13.33 手掌识别
3.13.34 树叶识别
3.13.35 水果识别
3.13.36 条形码识别
3.13.37 温度检测
3.13.38 瑕疵检测
3.13.39 芯片检测
3.13.40 行为识别
3.13.41 验证码识别
3.13.42 药材识别
3.13.43 硬币识别
3.13.44 邮政编码识别
3.13.45 纸牌识别
3.13.46 指纹识别

3.14 图像修复
3.15 图像压缩
3.16 图像隐写
3.17 图像增强
3.18 图像重建

4 路径规划方面
4.1 旅行商问题（TSP）
4.1.1 单旅行商问题（TSP）
4.1.2 多旅行商问题（MTSP）
4.2 车辆路径问题（VRP）
4.2.1 车辆路径问题（VRP）
4.2.2 带容量的车辆路径问题（CVRP）
4.2.3 带容量+时间窗+距离车辆路径问题（DCTWVRP）
4.2.4 带容量+距离车辆路径问题（DCVRP）
4.2.5 带距离的车辆路径问题（DVRP）
4.2.6 带充电站+时间窗车辆路径问题（ETWVRP）
4.2.3 带多种容量的车辆路径问题（MCVRP）
4.2.4 带距离的多车辆路径问题（MDVRP）
4.2.5 同时取送货的车辆路径问题（SDVRP）
4.2.6 带时间窗+容量的车辆路径问题（TWCVRP）
4.2.6 带时间窗的车辆路径问题（TWVRP）
4.3 多式联运运输问题

4.4 机器人路径规划
4.4.1 避障路径规划
4.4.2 迷宫路径规划
4.4.3 栅格地图路径规划

4.5 配送路径规划
4.5.1 冷链配送路径规划
4.5.2 外卖配送路径规划
4.5.3 口罩配送路径规划
4.5.4 药品配送路径规划
4.5.5 含充电站配送路径规划
4.5.6 连锁超市配送路径规划
4.5.7 车辆协同无人机配送路径规划

4.6 无人机路径规划
4.6.1 飞行器仿真
4.6.2 无人机飞行作业
4.6.3 无人机轨迹跟踪
4.6.4 无人机集群仿真
4.6.5 无人机三维路径规划
4.6.6 无人机编队
4.6.7 无人机协同任务
4.6.8 无人机任务分配

5 语音处理
5.1 语音情感识别
5.2 声源定位
5.3 特征提取
5.4 语音编码
5.5 语音处理
5.6 语音分离
5.7 语音分析
5.8 语音合成
5.9 语音加密
5.10 语音去噪
5.11 语音识别
5.12 语音压缩
5.13 语音隐藏

6 元胞自动机方面
6.1 元胞自动机病毒仿真
6.2 元胞自动机城市规划
6.3 元胞自动机交通流
6.4 元胞自动机气体
6.5 元胞自动机人员疏散
6.6 元胞自动机森林火灾
6.7 元胞自动机生命游戏

7 信号处理方面
7.1 故障信号诊断分析
7.1.1 齿轮损伤识别
7.1.2 异步电机转子断条故障诊断
7.1.3 滚动体内外圈故障诊断分析
7.1.4 电机故障诊断分析
7.1.5 轴承故障诊断分析
7.1.6 齿轮箱故障诊断分析
7.1.7 三相逆变器故障诊断分析
7.1.8 柴油机故障诊断

7.2 雷达通信
7.2.1 FMCW仿真
7.2.2 GPS抗干扰
7.2.3 雷达LFM
7.2.4 雷达MIMO
7.2.5 雷达测角
7.2.6 雷达成像
7.2.7 雷达定位
7.2.8 雷达回波
7.2.9 雷达检测
7.2.10 雷达数字信号处理
7.2.11 雷达通信
7.2.12 雷达相控阵
7.2.13 雷达信号分析
7.2.14 雷达预警
7.2.15 雷达脉冲压缩
7.2.16 天线方向图
7.2.17 雷达杂波仿真

7.3 生物电信号
7.3.1 肌电信号EMG
7.3.2 脑电信号EEG
7.3.3 心电信号ECG
7.3.4 心脏仿真

7.4 通信系统
7.4.1 DOA估计
7.4.2 LEACH协议
7.4.3 编码译码
7.4.4 变分模态分解
7.4.5 超宽带仿真
7.4.6 多径衰落仿真
7.4.7 蜂窝网络
7.4.8 管道泄漏
7.4.9 经验模态分解
7.4.10 滤波器设计
7.4.11 模拟信号传输
7.4.12 模拟信号调制
7.4.13 数字基带信号
7.4.14 数字信道
7.4.15 数字信号处理
7.4.16 数字信号传输
7.4.17 数字信号去噪
7.4.18 水声通信
7.4.19 通信仿真
7.4.20 无线传输
7.4.21 误码率仿真
7.4.22 现代通信
7.4.23 信道估计
7.4.24 信号检测
7.4.25 信号融合
7.4.26 信号识别
7.4.27 压缩感知
7.4.28 噪声仿真
7.4.29 噪声干扰