深度学习在语音识别中的应用-CSDN博客

本文链接：https://blog.csdn.net/qq_40873545/article/details/103724270

本文详细介绍了语音识别系统，包括信息处理和特征提取、声学模型、语言模型和解码搜索四个模块。传统的声学模型如GMM-HMM被深度学习方法如DNN、CNN所取代，以提高识别效率和准确性。DNN-HMM混合系统和基于CNN的多种框架在声学模型上取得了显著成果。此外，端到端的语音识别系统成为研究热点，通过联合优化所有组件以提升识别准确度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语音识别的基本框图
将语音片段输入转化为文本输出的过程就是语音识别。一个完整的语音识别系统通常包括信息处理和特征提取、声学模型、语言模型和解码搜索四个模块。语言识别系统如下图所示:

图一语音识别系统的架构
信号处理和特征提取可以视作音频数据的预处理部分，以音频信号为输入，通过消除噪音和信道失真对语音进行增强，将语音信号从时域转换为频域，并为后面的声学模型提取合适的特征。声学模型将声学和发音学的知识进行综合，以特征提取为输入，接下来声学模型会将预处理部分得到的特征向量转化为声学模型得分。同时，语言模型，也就是类似 n-gram 和 RNN 等模型，会得到一个语言模型得分，最后解码搜索阶段会针对声学模型得分和语言模型得分进行综合，将得分最高的词序列作为最后的识别结构。

图二统计语音识别框图
其中，声学模型为隐马尔科夫模型，Lexcion表示词典，语言模型为n-gram模型。
统计语音识别的基本公式：

图三
其中，X是声学特征向量序列（观察），W表示单词序列，W表示最可能的单词序列。已知观测到的声学X，使用声学模型，语言模型和词汇表来获得最有可能的文字序列W
用贝叶斯公式分析

图四
信息处理和特征提取
因为声波是一种信号，也可称为语音信号。原始的音频信号由人类发声器官和声道共同作用下产生的，属于模拟信号。为了对语音信号进行预处理和特征提取，需要进行模数转换。即采样，将模拟信号转换为数字的形式：

图五
语音引起空气振动，是一种声压波，用麦克风进行录制。经过麦克风录制后的语音信号，其中，采样频率（Fs = 1/Ts）

图六
数字化后，下一步的工作是提取语音信号的声学特征：

图七
采样后的信号通过前处理后进行声学特征向量提取，不同的特征向量表征着不同的声学意义，从音频信号中选择有效的音频表征的过程就是语音特征提取。常用的语音特征包括线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)，其中 LPCC 特征是根据声管模型建立的特征参数，是对声道响应的特征表征。而 MFCC 特征是基于人的听觉特征提取出来的特征参数，是对人耳听觉的特征表征。所以，在对音频信号进行特征提取时通常使用 MFCC 特征。

图八基于MFCC的前处理
MFCC 主要由预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换几部分组成，其中FFT与梅尔滤波器组是 MFCC 最重要的部分。一个完整的 MFCC 算法包括快速傅里叶变换(FFT);梅尔频率尺度转换;配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出;对所有滤波器输出作对数运算，再进一步做离散余弦变换(DTC)，即可得到MFCC。
传统的声学模型
在经过语音特征提取之后，将音频特征进行进一步