基于PSOLA算法的语音编码压缩的研究与实现.pdf
第 卷第 期 VOI.31 NO.4
31 4 东南大学学报(自然科学版)
年 月 JuIy 2001
2001 7 ( )
JOURNAL OF SOUTHEAST UNIVERSITY NaturaI Science EditiOn
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
基于PSOLA 算法的语音编码压缩的研究与实现
曹 钢 徐宏炳
(东南大学计算机科学与工程系,南京 )
210096
摘要:以时域基音同步叠加(TD-PSOLA )技术和一个全汉语单音节库为合成单元进行汉语语音
合成,合成的语音清晰度和自然度很高. 但是这样的系统语音库太大,不利于在小型设备中实
现,影响了语音合成的进一步应用 本文针对此问题,在研究 律压缩的基础上,采用自适应
. A
量化和自适应预测的技术,以较少增加合成运算量复杂度为代价,对语音库的编码实现压缩,
使压缩后的语音库减小了约一半,大大减小了所需的存储空间 并且利用压缩后的语音库合成
.
语音,基本上不影响合成后的语音质量,从而进一步扩展了语音合成的应用.
关键词:基音同步叠加;编码压缩;自适应预测;自适应量化
中图分类号: 文献标识码: 文章编号: ( )
TN912.33 A 1001 - 0505 2001 04-0036-04
随着多媒体技术的不断发展,近 年来,在语音合成领域中涌现出大量新技术和新设计 过去由于计
20 .
算机存贮容量的限制,语音合成通常都采用参数合成方法,如共振峰、 , 等参数合成方法,虽然合成
LPC LSP
单元的存贮量比较小,但是由于汉语语音参数多,抽取的算法比较复杂,合成语音的自然度和清晰度都比
[]
较差 1 .
汉语普通话的音节有一些特点,如它是普通话最自然和最基本的语音单位,数目较少,具有相对的稳
[]
定性2 等,因此在汉语语音合成中一般都是利用汉字全音节作音库 在传统简单的波形拼接中,没有考虑
.
到音节在连续语流中的发音与单音节发音的不同,所以合成的自然度不高,“机器味”较重 世纪 年
. 20 80
代末,基音同步叠加法(PSOLA )技术的研究使得在音节拼接时能比较灵活地调节其音高和时长,使合成的
音色和自然度大大提高,因而该技术得到了广泛的应用.
为了让语音合成技术从实验室走向市场,扩大文语
合成的应用场合,目前对汉语文—语转换系统而言,减
小音库容量也是一个重要课题 高质量的汉语文—语转
.
换系统(见图1)一般需要几兆到几十兆字节,甚至更多
的存储容量,这在以 机