python 语音识别深度学习_用Python实现语音识别的终极指南

目录语音识别的工作原理Python语音识别软件包的选择安装语音识别包识别器类使用音频文件支持的文件类型使用record()来捕获文件中的数据具有偏移和持续时间的段的捕获噪声对语音识别的影响用麦克风工作麦克风类使用Listen()捕获麦克风输入处理不可识别的语音综合:一个“猜单词”游戏补充和补充资源附录:用英语以外的语言识别语音语音识别的工作原理语音识别起源于20世纪50年代初在贝尔实验室进行的研究...
摘要由CSDN通过智能技术生成

目录语音识别的工作原理

Python语音识别软件包的选择

安装语音识别包

识别器类

使用音频文件

支持的文件类型

使用record()来捕获文件中的数据

具有偏移和持续时间的段的捕获

噪声对语音识别的影响

用麦克风工作

麦克风类

使用Listen()捕获麦克风输入

处理不可识别的语音

综合:一个“猜单词”游戏

补充和补充资源

附录:用英语以外的语言识别语音

语音识别的工作原理

语音识别起源于20世纪50年代初在贝尔实验室进行的研究。早期的系统仅限于一个说话者,并且有大约10个单词的词汇量有限。现代语音识别系统自远古以来就有很长的路要走。他们可以识别来自多个发言者的讲话,并且在许多语言中有海量的词汇。

当然,语音识别的第一个组成部分是语音。语音必须用麦克风从物理声音转换成电信号,然后用模数转换器转换成数字数据。一旦数字化,可以使用几个模型来转录音频到文本。

大多数现代语音识别系统依赖于所谓的隐性马尔可夫模型(HMM)。这种方法的假设是,当在足够短的时间尺度上(例如,10毫秒)观看语音信号时,可以合理地近似为一个平稳过程,即统计特性随时间不改变的过程。

在一个典型的HMM中,语音信号被划分为10毫秒片段。每个片段的能谱,实质上是信号的功率作为频率的函数的图,被映射为实数向量,称为倒频谱参数。该向量的维数通常很小,有时低到10,尽管更精确的系统可以具有32或更多的维数。HMM的最终输出是这些向量的序列。

为了将语音解码成文本,向量组与一个或多个音素(音位)匹配,这是基本的

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值