开源语音识别工具包 - CMUSphinx

最新推荐文章于 2024-07-04 09:28:37 发布

muxiue

最新推荐文章于 2024-07-04 09:28:37 发布

阅读量5.6k

点赞数 11

分类专栏：语音识别文章标签：语音识别 Sphinx

本文链接：https://blog.csdn.net/muxiue/article/details/90292977

版权

开源语音识别工具包 - CMUSphinx

开源语音识别工具包
语音识别简介
CMU Sphinx
- 简介
- Sphinx初体验
- - 下载
  - 编译
  - 运行

开源语音识别工具包

目前开源世界里存在多种不同的语音识别工具包，它们为开发者构建语音识别相关的应用提供了很大的帮助。以下是目前比较流行的语音识别工具包：

CMU Sphinx
Kaldi
HTK
Julius
ISIP
作为语音识别小白，我将从CMU Sphinx入手，从简单的应用搭建到CMU Sphinx代码的阅读和理解，逐步深入了解语音识别这个深奥的世界。

语音识别简介

语音其实上是一个复杂的现象，人们很少理解语音是怎么产生和感知的，最直观的理解就是语言是由多个单词组成的，而每个单词又是由多个音素（phone）组成的，但事实却并不是这样。事实上，语言/语音是一个连续动态的过程，之间没有明显的分界，如果你用一个语音编辑器来看的话，波形就是下面的样子：
在这里插入图片描述
语音实际上是一个概率问题，从而意味着在一段连续的语音中，单词之间没有明显的分界，所以从语音到文字的转换永远不可能100% 正确，这其实颠覆了许多程序员的认知。作为程序员，大多数都在处理一就是一，二就是二的问题，而不是一有可能是一，也有可能是二的问题，而语音识别就是后者。

语音的构成

语音是一种连续的音频流，这个音频流是稳定状态与动态改变状态的叠加，在这种状态序列中，可以定义相似类别的声音或音素。对应于每个音素的波形的声学特性受许多因素影响——环境，扬声器，语音风格等。另外，协同发音（指的是一个音受前后相邻音的影响而发生变化，从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变，从而使得后一个音的频谱与其他条件下的频谱产生差异）的存在使得音素的感知与标准不一样，所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如：数字“three”，音素的第一部分与在它之前的音素存在关联，中间部分是稳定的部分，而最后一部分则与下一个音素存在关联，这就是为什么在用HMM模型做语音识别时，选择音素的三状态HMM模型。上下文相关建模方法在建模时考虑了这一影响，从而使模型能更准确地描述语音，只考虑前一音的影响的称为双音素Bi-Phone，考虑前一音和后一音的影响的称为 3音素Tri-Phone，甚至4音素Qin-phones。
从计算角度出发，只检测3音素的一部分比把3音素作为整体考虑要有用的多，例如，现在你想创建一个3音素头部部分的检测器，那么你只需要一小部分（大约4000个）不同的短的声音检测器，我们称这些检测器为senones。一个senone的上下文依赖比单纯的左右上下文复杂得多，它是一个可以被决策树或者其他方式来定义的复杂函数。
音素phones构成亚单词单元，也就是音节syllables。音节是一个比较稳定的实体，因为当语音变得比较快的时候，音素往往会发生改变，但是音节却不变。音节与节奏语调的轮廓有关。有几种方式去产生音节：基于形态学或者基于语音学。音节经常在词汇语音识别中使用。
亚单词单元（音节）构成单词。单词在语音识别中很重要，因为单词约束了音素的组合。假如共有40个音素，然后每个单词平均有7个音素，那么就会存在40^

最低0.47元/天解锁文章

muxiue

关注

11
点赞
踩
49

收藏

觉得还不错? 一键收藏
1
评论
开源语音识别工具包 - CMUSphinx

开源语音识别工具包 - CMUSphinx开源语音识别工具包语音识别简介语音的构成识别过程模型其他概念CMU Sphinx简介Sphinx初体验下载编译运行开源语音识别工具包目前开源世界里存在多种不同的语音识别工具包，它们为开发者构建语音识别相关的应用提供了很大的帮助。以下是目前比较流行的语音识别工具包：CMU SphinxKaldiHTKJuliusISIP作为语音识别小白，我...
复制链接

扫一扫