开始是为了给自己的离线词典库配置一个自动发声的语音库,下载了lingoes词霸。发现初次感觉还不错,软件界面非常简洁友好易懂。按照指示去电驴上下载MP3的语音,没有权限下载那些被屏蔽了的资源,没办法,只好尝试自己去制作一个语音库了,就当是玩玩。
突然之间就对文本转化语音(text to speech)产生了好奇。
怎么可以这样呢?它的原理是什么?
去百度了一下,发现科大讯飞有一款小的TTS软件,叫什么我忘了,好像很不错的样子,想着有空应该试一下。
浏览了一下官方的权威的解说,发现还是似懂非懂。没关系,它成功地勾起了我的兴趣。
顺便说一下,不小心瞄到了科大的声学不错,我们学校的光学也不错,嘿嘿,不知道它俩是否是绝配哦!、
言归正传,凭着我的一点直觉和一点点的基础知识,我觉得应该是文本——语音库,中间有个软件先读取文本,识别出字词,再根据某种规律(估计程序中是一个矩阵什么的)进行断句,然后得到一堆不同的编码,最后根据这些编码找到语音库中的语音,拼接、组合、调整一下速度,再播放出来。
这个技术大概已经很成熟了,网上都有现成的软件。不过,想一想,如果我们自己去开发一个这样的小的应用程序,不知道会做成什么样子呢!不简单呀
说到这里,我想到有一个舍友特别喜欢qq上的变声,每次发语音她都会用哪个嗲嗲的宝宝音。
还想到了柯南的变声蝴蝶结领带,哈哈。
不知道那些是什么原理?
是否是接收到声波,然后转换成电流波形,在对波形进行简单的处理{保持大致波形不变}后,输出,倒有点向故意使声信号失真一样。
不知道猜的对不对,还是明天有空再想吧。