语音识别技术原理概述！

最新推荐文章于 2024-04-19 14:21:11 发布

编程大乐趣

最新推荐文章于 2024-04-19 14:21:11 发布

阅读量4.6k

点赞数

本文详细介绍了语音识别技术的基本原理，包括声学信号预处理、特征提取、声学模型、语言模型及解码过程。预处理涉及滤波、采样和平滑等步骤；特征提取常用参数有LPCC和MFCC；声学模型通常使用GMM-HMM或DNN-HMM；语言模型如N-gram用于描述词与词间的统计规律；解码过程涉及Viterbi算法。文章还讨论了高斯混合模型和隐马尔科夫模型在语音识别中的应用。

摘要由CSDN通过智能技术生成

原标题：语音识别技术原理概述！

语音识别的基本原理

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，其中为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等预处理工作，把要分析的信号从原始信号中提取出来;之后，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量;声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率;最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

声学信号预处理

作为语音识别的前提与基础，语音信号的预处理过程至关重要。在最终进行模板匹配的时候，是将输入语音信号的特征参数同模板库中的特征参数进行对比，因此，只有在预处理阶段得到能够表征语音信号本质特征的特征参数，才能够将这些特征参数进行匹配进行识别率高的语音识别。

首先需要对声音信号进行滤波与采样，此过程主要是为了排除非人体发声以外频率的信号与50Hz电流频率的干扰，该过程一般是用一个带通滤波器、设定上下戒指频率进行滤波，再将原有离散信号进行量化处理实现的;之后需要平滑信号的高频与低频部分的衔接段，从而可以在同一信噪比条件下对频谱进行求解，使得分析更为方便快捷;分帧加窗操作是为了将原有频域随时间变化的信号具有短时平稳特性，即将连续的信号用不同长度的采集窗口分成一个个独立的频域稳定的部分以便于分析，此过程主要是采用预加重技术;最后还需要进行端点检测工作，也就是对输入语音信号的起止点进行正确判断，这主要是通过短时能量(同一帧内信号变化的幅度)与短时平均过零率(同一帧内采样信号经过零的次数)来进行大致的判定。

声学特征提取

完成信号的预处理之后，随后进行的就是整个过程中极为关键的特征提取的操作。将原始波形进行识别并不能取得很好的识别效果，频域变换后提取的特征参数用于识别，而能用于语音识别的特征参数必须满足以下几点：

1、特征参数能够尽量描述语音的根本特征;

2、尽量降低参数分量之间的耦合，对数据进行压缩;

3、应使计算特征参数的过程更加简便，使算法更加高效。基音周期、共振峰值等参数都可以作为表征语音特性的特征参数。

目前主流研究机构最常用到的特征参数有：线性预测倒谱系数(LPCC)和 Mel 倒谱系数(MFCC)。两种特征参数在倒谱域上对语音信号进行操作，前者以发声模型作为出发点，利用 LPC 技术求倒谱系数。后者则模拟听觉模型，把语音经过滤波器组模型的输出做为声学特征，然后利用离散傅里叶变换(DFT)进行变换。

所谓基音周期，是指声带振动频率(基频)的振动周期，因其能够有效表征语音信号特征，因此从最初的语音识别研究开始，基音周期检测就是一个至关重要的研究点;所谓共振峰，是指语音信号中能量集中的区域，因其表征了声道的物理特征，并且是发音音质的主要决定条件，因此同样是十分重要的特征参数。此外，目前也有许多研究者开始将深度学习中一些方法应用在特征提取中，取得了较快的进展。

声学模型

声学模型是语音识别系统中非常重要的一个组件，对不同基本单元的区分能力直接关系到识别结果的好坏。语音识别本质上一个模式识别的过程，而模式识别的核心是分类器和分类决策的问题。

通常，在孤立词、中小词汇量识别中使用动态时间规整(DTW)分类器会有良好的识别效果，并且识别速度快，系统开销小，是语音识别中很成功的匹配算法。但是，在大词汇量、非特定人语音识别的时候，DTW 识别效果就会急剧下降，这时候使用隐马尔科夫模型(HMM)进行训练识别效果就会有明显提升，由于在传统语音识别中一般采用连续的高斯混合模型GMM来对状态输出密度函数进行刻画，因此又称为GMM-HMM构架。

最低0.47元/天解锁文章

编程大乐趣

关注

0
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫