语音识别与合成(待续)

语音识别:

参考:https://www.zhihu.com/question/20398418


一个音素通常都划分成若干个状态,比如3个。

语音识别先分帧,若干帧语音对应一个状态,每3个状态对应一个音素。

英文语音识别:通过提取mfcc,f0等特征+HMM把帧识别为状态(难)-------------》把状态组成音素------序列挑选识别器---------》把音素组合为单词


语音合成:

句子文本---断句注音韵律等前端处理---》音子+上下文


合成一般2类方法,参数合成和拼接合成。


HTS声码器参数合成 会有较明显的机器音(muffle)。

拼接合成 对音库的要求高,音库小容易造成听感不连贯问题。


一些基础:

梅尔倒谱系数:http://blog.csdn.net/zouxy09/article/details/9156785/

线对谱:http://www.doc88.com/p-3406303371151.html  这个不是太好理解

----一些基础知识----

from http://blog.csdn.net/zouxy09/article/details/7941585

音节:

      音节是听觉能感受到的最自然的语音单位,有一个或几个音素按一定规律组合而成。

汉语音节:

       汉语中一个汉字就是一个音节,每个音节由声母、韵母和声调三个部分组成;汉语普通话中的无调音节(不做音调区分)共有400个音节。拼音是拼读音节的过程,就是按照普通话音节的构成规律,把声母、韵母、声调急速连续拼合并加上声调而成为一个音节。如:q-i-ángqiáng(强)。

 

英语音节:

        音节是读音的基本单位,任何单词的读音,都是分解为一个个音节朗读。英语中一个元音音素可构成一个音节,一个元音音素和一个或几个辅音音素结合也可以构成一个音节。英语的词有一个音节的,两个音节的,多个音节的。一个音节叫单音节词,两个音节叫双音节词,三个音节以上叫多音节。如:take拿,ta'ble 桌子,pota'to马铃薯,popula'tion人口,congratula'tion祝贺。telecommunica'tion电讯。

        元音音素是构成音节的主体,辅音是音节的分界线。每个元音音素都可以构成一个音节,如:bed床,bet 打赌。两个元音音素都可以构成一个音节,如:seat坐位,beat 毒打,beast极好的。两元音音素之间有一个辅音音素时,辅音音素归后一音节,如:stu'dent学生,la'bour 劳动。有两个辅音音素时,一个辅音音素归前一音节,一个归后一音节,如: win'ter冬天 fa'ther 父亲,tea'cher教师。

 

音素:

         音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。从生理性质来看,一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作,是两个音素。相同发音动作发出的音就是同一音素,不同发音动作发出的音就是不同音素。如〔ma-mi〕中,两个〔m〕发音动作相同,是相同音素,〔a〕〔i〕发音动作不同,是不同音素。

 

汉语音素:

        音节只是最自然的语音单位,而音素是最小的语音单位音素。汉语包括10个元音,22个辅音,总共有32个。一个音节,至少有一个音素,至多有四个音素。如“普通话”,由三个音节组成(每个字一个音节),可以分析成“p,u,t,o,ng,h,u,a”八个音素。


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值