与计算机合成图像一样,计算机也可以合成声音。计算机合成声音有两类,一类是计算机合成的语音,另一类是计算机合成的音乐,它们都有许多重要的应用。
1.语音合成
语音合成(speech synthesis)是根据语言学和自然语言理解的知识,使计算机模仿人的发声,自动生成语音的过程。目前主要是按照文本(书面语言)进行语音合成,这个过程称为文语转换(Text—To—Speech,简称TTS)。
文语转换过程原理上分成三步(图3一25)。第1步先对文本进行分析,判断每一个字的正确读音,将文字序列转换成一串发音符号(如国际音标或汉语拼音);第2步是韵律分析,它根据文句的结构、位置、使用的标点符号以及上下文等,确定发音时语气的变换以及读音的轻重缓急,这些都由一组韵律控制参数来进行说明;第3步是语音合成,它的主要功能是:根据发音标注,从语音库中取出相应的语音基元,按照韵律控制参数的要求,利用特定的语音合成技术对语音基元进行调整和修改,最终合成出符合要求的流畅、自然的语音。语音库中存储了大量预先录制的语音基元(单音、词组、短语或句子)的波形,合成时读取语音基元的波形,将这些波形进行拼接和韵律修饰,然后输出连续语音流。
一般来说,对计算机合成的语音希望能达到如下要求:发音清晰可懂,语气语调自然,说话人可选择,语速可变化等。
计算机合成语音有多方面的应用,例如股票交易、航班动态查询、电话报税等业务中,可以利用电话进行信息查询和声讯服务,以准确、清晰的语音为用户提供查询结果。再如有声E-mail服务,它通过电话网与Internet互连,以电话或手机作为E