P2 音乐合成与 MIDI
音乐合成的介绍,包括两种合成器类型:1976年的频率调制(FM)音乐合成和1984年的波表(Wavetable)音乐合成。
常用的FM合成芯片是YM3812。
P19 3.4智能语音处理技术
P27 3.4.1 语音识别技术Automatic Speech Recognition,简写为 ASR
原理:贝叶斯统计建模框架(MAP/最大后验概率决策准则)
声学特征提取:以HMM建模的模型,声学特征就是一个帧序列,而每帧就是一个12维的MFCC特征向量
声学模型:
声学单元应该具有的特性
• 一致性:不同语音实例中相同的语音单元在声学上一致
• 可训练性:建模单元需要足够的训练数据来进行参数估计
• 可共享性:不同的建模单元之间共享某些具有共性的训练数据
语言模型:N-gram
解码:
从幻灯片35语音识别技术的发展阶段
1.探索阶段到1950-1990
2.发展阶段1980-2000
3.探索阶2006~基于深度学习的大词汇量连续语音识别。
从幻灯片37~40
- 语音识别技术的难点,包括信号处理改进、鲁棒性特征和复杂语音环境下的挑战。
- 鸡尾酒会问题-分离语音
幻灯片41~47语音合成技术TTS
语音的清晰度(可懂度)、自然度、连贯性
① 参数合成。 ② 多样本波形拼接合成。 ③大语料库合成:目前主流
幻灯片48语音合成的未来发展
提高合成语音的自然度 丰富合成语音的表现力; 降低语音合成技术的复杂度; 多语种文语