Sphinx语音识别

最新推荐文章于 2024-06-03 09:59:41 发布

audiocool

最新推荐文章于 2024-06-03 09:59:41 发布

阅读量3.5k

点赞数

分类专栏：音频处理机器学习文章标签：语音识别

本文链接：https://blog.csdn.net/audio_algorithm/article/details/81475419

版权

一、语音识别简介

语音识别的一般框架一般包含几个部分：声学模型、语音模型、以及词典。语音信号（波形）经过前级处理（包括降噪，语音增强，人声检测等）后，提取特征，送入解码模块，进行解析得到识别结果。而解码模块则由声学模型、语言模型映射、链接组成的网络。目前主流的语音模型一般采用 n-gram 语言模型，声学模型采样隐马尔科夫模型（HMM），这些模型都需要经过预先训练得到。

上图框架中，发音字典是指系统所能处理的单词的集合，并标明了其发音。通过发音字典得到声学模型的建模单元和语言模型建模单元间的映射关系，从而把声学模型和语言模型连接起来，组成一个搜索的状态空间用于解码器进行解码工作。

二、语音识别开源项目

CMU Sphinix，显而易见，从它的名字就能看出来是卡内基梅隆大学的产物。它已经以某些形式存在了 20 年了，现在它在 Github（C (https://github.com/cmusphinx/pocketsphinx) 版本和 Java (https://github.com/cmusphinx/sphinx4) 版本）和 SourceForge (https://sourceforge.net/projects/cmusphinx/) 上都开源了，而且两个平台上都有活动。Github 上的 Java 版本和 C 版本都只有一个贡献者，但是这并不影响此项目的历史真实性（在 SourceForge repo 上有 9 个管理人员还有很多开发者

最低0.47元/天解锁文章

audiocool

关注

0
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
Sphinx语音识别

一、语音识别简介语音识别的一般框架一般包含几个部分：声学模型、语音模型、以及词典。语音信号（波形）经过前级处理（包括降噪，语音增强，人声检测等）后，提取特征，送入解码模块，进行解析得到识别结果。而解码模块则由声学模型、语言模型映射、链接组成的网络。目前主流的语音模型一般采用 n-gram 语言模型，声学模型采样隐马尔科夫模型（HMM），这些模型都需要经过预先训练得到。 ...
复制链接

扫一扫