1 语音信号处理主要研究内容
1.1 语音编码
语音编码的根本作用是使语音通信数字化
1.2 语音合成
基于规则的文字-语音合成系统
用最基本的语音单元,如因素、音节等作为合成单元,建立语音库,通过合成单元拼接达到无限词汇的合成。输入文字信息后,将其按照语言规则转换为由基本单元组成的序列;根据说话时单元连接的规则进行控制,并发出声音。为保证合成声音的质量,系统中除语音库外还有一个很庞大的规则库,实现对合成语音的音段和超音段特征的控制。
波形拼接合成方法
最具代表性的使基音同步叠加法(PSOLA)
PSOLA是多样本的不等长语音拼接合成技术;在语音库中存放大量语音样本,通过选择合适的拼接语音片段实现高质量的语音合成
基于统计模型和机器学习方法
根据一定语音数据进行训练,快速构建合成系统
随着声学合成性能的提高,出现了统计参数语音合成方法,以HMM建模和合成为代表
语音合成的研究方向:提高自然度,提高无限词汇语音合成的音质
1.3 语音识别
一方面,声学语音学统计模型的研究日益深入,鲁棒的语音识别,基于语音段的建模方法及HMM与神经网络结合成为研究热点
另一方面,为适应语音识别实用化的需要,听觉模型,快速搜索识别算法,以及进一步的语言模型研究课题受到很大关注
1.4 说话人识别
不关注语音信号中的语义内容,从语音信号中分析和提取个人特征,以去除不含个人特征的语音信息。即找出包含在语音信号中的说话人的个性因素,即不同人之间的特征差异
1.5 语种识别
通过找出不同语种之间的特征差异
1.6 语音理解
与语音识别的区别在于对语法和予以知识的充分利用程度。可看作信号处理与知识处理的产物
1.7 语音增强
研究大体分为三类方法,即语音增强,寻找稳健的语音特征及基于模型参数适应化的噪声补偿。然而,解决噪声问题的根本方法应是噪声和语音的自动分离。
对带噪语音进行处理,尽可能去除噪声并改善听觉效果
1.8 基于麦克风陈列的语音信号处理
1.9 基于智能信息处理、现代信号处理技术的语音信号处理
计算智能:神经网络,模糊系统,进化算法
信号处理的新技术:如非平稳和非高斯信号;高阶统计量,时频分析,小波分析,盲源分离,现代谱估计,特征空间分解,独立分量分析