语音识别（ASR）--语音转文字

最新推荐文章于 2024-06-28 18:31:49 发布

编程大乐趣

最新推荐文章于 2024-06-28 18:31:49 发布

阅读量5.8k

点赞数 4

本文详细介绍了语音识别（ASR）的基本原理和工作流程，包括声音预处理、特征提取、声学模型、语言模型以及解码过程。通过建立模式识别系统，利用动态规划算法如Viterbi，结合声学和语言模型提高识别准确性。

摘要由CSDN通过智能技术生成

语音识别（Automatic Speech Recognition）是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。

语音识别的基本原理

语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

c37fc406ac4d 上面这个图其实很好理解，就是把语音输入，我们首先就是要对输入的语音进行预处理，然后提取语音的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”;而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测(去除多余的静音和非说话声)、降噪、特征提取等;“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别(又称“解码”)，得到其包含的文字信息，此外，后端模块还存在

最低0.47元/天解锁文章

编程大乐趣

关注

4
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫