语音识别——基本概念简介

写在前面:做了3年的图像,没想到到了工作要转成语音了。所以既来之,则安之。从今天开始记录自己从零开始的语音领域的学习,希望利用入职前这两三个月的时间把基础知识打好吧O(∩_∩)O

一些基本的概念:

音素(phone):语音的自然属性划分出来的最小语音单位。(可以理解为图像中的像素)。音素分为元音辅音两大类。如汉语音节 ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。

注:

  • 音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,考虑前一音的影响的称为Bi-Phone,考虑前一音和后一音的影响的称为 Tri-Phone。
  • 音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素,称为senone

音节(syllables):由音素构成。音节是一个比较稳定的实体,因为当语音变得比较快的时候,音素往往会发生改变,但是音节却不变。

注:

  • 中文中一般一个汉字是一个音节。
  • 英文中用元音字母区分音节。

单词单元(音节)构成单词。单词在语音识别中很重要,因为单词约束了音素的组合。

单词和一些非语言学声音构成了话语(utterances),我们把非语言学声音称为fillers填充物,例如呼吸,um,uh,咳嗽等,它们在音频中是以停顿做分离的。所以它们更多只是语义上面的概念,不算是一个句子。

语音识别的过程:

特征→模型→匹配算法

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值