语音识别综述解析深度学习

语音识别的基本框图
将语音片段输入转化为文本输出的过程就是语音识别。一个完整的语音识别系统通常包括信息处理和特征提取、声学模型、语言模型和解码搜索四个模块。语言识别系统如下图所示:

图一 语音识别系统的架构
信号处理和特征提取可以视作音频数据的预处理部分,以音频信号为输入,通过消除噪音和信道失真对语音进行增强,将语音信号从时域转换为频域,并为后面的声学模型提取合适的特征。声学模型将声学和发音学的知识进行综合,以特征提取为输入,接下来声学模型会将预处理部分得到的特征向量转化为声学模型得分。同时,语言模型,也就是类似 n-gram 和 RNN 等模型,会得到一个语言模型得分,最后解码搜索阶段会针对声学模型得分和语言模型得分进行综合,将得分最高的词序列作为最后的识别结构。

图二 统计语音识别框图
其中,声学模型为隐马尔科夫模型,Lexcion表示词典,语言模型为n-gram模型。
统计语音识别的基本公式:

图三
其中,X是声学特征向量序列(观察),W表示单词序列,W表示最可能的单词序列。已知观测到的声学X,使用声学模型,语言模型和词汇表来获得最有可能的文字序列W
用贝叶斯公式分析

图四
信息处理和特征提取
因为声波是一种信号,也可称为语音信号。原始的音频信号由人类发声器官和声道共同作用下产生的,属于模拟信号。为了对语音信号进行预处理和特征提取,需要进行模数转换。即采样,将模拟信号转换为数字的形式:

图五
语音引起空气振动,是一种声压波,用麦克风进行录制。经过麦克风录制后的语音信号,其中,采样频率(Fs = 1/Ts)

图六
数字化后,下一步的工作是提取语音信号的声学特征:

图七
采样后的信号通过前处理后进行声学特征向量提取,不同的特征向量表征着不同的声学意义,从音频信号中选择有效的音频表征的过程就是语音特征提取。常用的语音特征包括线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC),其中 LPCC 特征是根据声管模型建立的特征参数,是对声道响应的特征表征。而 MFCC 特征是基于人的听觉特征提取出来的特征参数,是对人耳听觉的特征表征。所以,在对音频信号进行特征提取时通常使用 MFCC 特征。

图八 基于MFCC的前处理
MFCC 主要由预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换几部分组成,其中FFT与梅尔滤波器组是 MFCC 最重要的部分。一个完整的 MFCC 算法包括快速傅里叶变换(FFT);梅尔频率尺度转换;配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出;对所有滤波器输出作对数运算,再进一步做离散余弦变换(DTC),即可得到MFCC。
传统的声学模型
在经过语音特征提取之后,将音频特征进行进一步

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值