关于语音合成的一点思考

开始是为了给自己的离线词典库配置一个自动发声的语音库,下载了lingoes词霸。发现初次感觉还不错,软件界面非常简洁友好易懂。按照指示去电驴上下载MP3的语音,没有权限下载那些被屏蔽了的资源,没办法,只好尝试自己去制作一个语音库了,就当是玩玩。


突然之间就对文本转化语音(text to speech)产生了好奇。

怎么可以这样呢?它的原理是什么?

去百度了一下,发现科大讯飞有一款小的TTS软件,叫什么我忘了,好像很不错的样子,想着有空应该试一下。

浏览了一下官方的权威的解说,发现还是似懂非懂。没关系,它成功地勾起了我的兴趣。

顺便说一下,不小心瞄到了科大的声学不错,我们学校的光学也不错,嘿嘿,不知道它俩是否是绝配哦!、

言归正传,凭着我的一点直觉和一点点的基础知识,我觉得应该是文本——语音库,中间有个软件先读取文本,识别出字词,再根据某种规律(估计程序中是一个矩阵什么的)进行断句,然后得到一堆不同的编码,最后根据这些编码找到语音库中的语音,拼接、组合、调整一下速度,再播放出来。


这个技术大概已经很成熟了,网上都有现成的软件。不过,想一想,如果我们自己去开发一个这样的小的应用程序,不知道会做成什么样子呢!不简单呀


说到这里,我想到有一个舍友特别喜欢qq上的变声,每次发语音她都会用哪个嗲嗲的宝宝音。

还想到了柯南的变声蝴蝶结领带,哈哈。


不知道那些是什么原理?


是否是接收到声波,然后转换成电流波形,在对波形进行简单的处理{保持大致波形不变}后,输出,倒有点向故意使声信号失真一样。

不知道猜的对不对,还是明天有空再想吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值