讲座笔记:对抗学习+深度学习在语音上的应用

西工大谢磊老师的讲座

  • 背景:现在语音识别准确率可以做的很高,但一些场景下效果非常差,比如说一个party的场景,多人谈话,且噪声很大,GMM和end-to-end错误率高达90%以上
  • 挑战:普遍化,个人化,资源少
  • 应用场景:Noise,比如手机通话降噪;识别方言口音;TTS personalied,通过明星录的特定的20-50句话可以合成出他的音色
  • 两个具体研究的方向:DL + Adversarial Training (DAT);数据扩增
  • DAT:
    很多场景下test和train数据分布不一样,工业界上更多的是要求模型能够应用在更多的场景下,作为传统电子硬件的一种补充。(能耗上,工程实践上问题还存在很多)
  • 语音识别:
    两个分类器L1,L2,L1用来识别语音特征,L2用来识别类别特征,loss为L = L1 - L2. 利用对抗学习使L2混淆,分辨不出类别,从而使L1提取的特征更加普遍化,使模型不只适用于特定场景。
  • 数据扩增:
    一种方法是加不同场景的噪声,一种方法是转变音色
    Eg. Amazon音箱训练数据是原始数据的5万倍
    语音相比较图像对noise更加敏感,往往只加很小噪声对结果影响很大。对数据加一个小噪声,这种人耳很难分辨出来前后的区别,但是模型很敏感,可能就被分到另一个类别去了,所以将其强制分类为正确类别,可以使准确率得到提高。
    conditional GAN 条件给语义信息,用来做语音合成,相比较于普遍的MSE loss,可以得到听起来更舒服的结果。
  • end to end TTS
    例如google做的wavenet等
    输入一大段文本,转化为的语音要有语调和韵律上的变化。
    方法tacotron+VQ
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值