[声纹识别]语音识别系统框架[1]

最新推荐文章于 2025-02-28 08:38:20 发布

强heaven

最新推荐文章于 2025-02-28 08:38:20 发布

阅读量2.5k

点赞数 3

分类专栏：声纹识别文章标签：语音识别自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25888559/article/details/120804188

版权

声纹识别专栏收录该内容

4 篇文章

订阅专栏

在研究者眼中的语音识别是通过三个步骤完成：一是录入语音信号；二是搜素训练数据集包含（声音模型、词库、语言模型）；三是解码输出文本。也就是说音频->提取为声学特征->转成音素（这部分为声学模型）->组成字/词->按时序组成句子（这部分为语言模型）。

所谓语音识别，就是将一段语音信号转换成相对应的文本信息，语音识别系统主要包含特征提取、声学模型，语言模型以及字典与解码四大部分，此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分帧等音频数据预处理工作，将需要分析的音频信号从原始信号中合适地提取出来；特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示，如图1所示连续语音识别框图[1]。

图1 连续语音识别框图

语音识别的第一步是特征提取。特征提取是将输入的样点（波形）序列转换成特征向量序列，一个特征向量表示一个音频片段，成为一帧。

一帧包含若干样点，在语音识别中，常用25ms作为帧长。为了捕捉连续语音稳定的变化，避免帧之间的特征突变，每隔10ms取一帧，即帧移为10ms[2]。

采样是声波数字化的方法，而分帧是信号特征化的前提，分帧遵循的前提是，语音信号在25ms内，人耳认为信号特征是平稳的，这个前提称为短时平稳假设。正是有了此假设，可以将语音信号转换为缓慢变化的特征项量序列，进而可以通过时序建模的方法来描述。

图2 分帧

[参考文献]

[1]陈孝良,冯大航,李智勇.语音识别技术简史,CSDN,2019.8

[2]陈果果，都家宇，那兴宇，张俊博著.Kaldi语音识别实战[M],电子工业出版社，2020.4

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

强heaven 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。