3-3 audio processing-asr,tts

P2 音乐合成与 MIDI

音乐合成的介绍,包括两种合成器类型:1976年的频率调制(FM)音乐合成和1984年的波表(Wavetable)音乐合成。

常用的FM合成芯片是YM3812。

P19 3.4智能语音处理技术

P27 3.4.1  语音识别技术Automatic Speech Recognition,简写为 ASR

原理:贝叶斯统计建模框架(MAP/最大后验概率决策准则)

声学特征提取:以HMM建模的模型,声学特征就是一个帧序列,而每帧就是一个12维的MFCC特征向量

声学模型:

        声学单元应该具有的特性

         • 一致性:不同语音实例中相同的语音单元在声学上一致

        • 可训练性:建模单元需要足够的训练数据来进行参数估计

         • 可共享性:不同的建模单元之间共享某些具有共性的训练数据

语言模型:N-gram

解码:

从幻灯片35语音识别技术的发展阶段

1.探索阶段到1950-1990

2.发展阶段1980-2000

3.探索阶2006~基于深度学习的大词汇量连续语音识别。   

从幻灯片37~40

  • 语音识别技术的难点,包括信号处理改进、鲁棒性特征和复杂语音环境下的挑战。
  • 鸡尾酒会问题-分离语音

幻灯片41~47语音合成技术TTS

语音的清晰度(可懂度)、自然度、连贯性

   ① 参数合成。  ② 多样本波形拼接合成。  ③大语料库合成:目前主流

幻灯片48语音合成的未来发展

 提高合成语音的自然度 丰富合成语音的表现力; 降低语音合成技术的复杂度; 多语种文语

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值