SLT2021: UNSUPERVISED ACOUSTIC-TO-ARTICULATORY INVERSION NEURAL NETWORK LEARNING BASED ON DETERMINIS

本文提出了一种新的无监督学习方法,用于从语音波形中推断发音参数,无需迭代优化。通过结合深度神经网络和物理语音合成器,使用强化学习中的确定性策略梯度(DPG)进行训练,解决了高维连续控制问题,提高了学习效率。实验结果显示,该方法能够准确推断发音参数,甚至对未见过的发音也能有效重建。
摘要由CSDN通过智能技术生成

0. 题目

UNSUPERVISED ACOUSTIC-TO-ARTICULATORY INVERSION NEURAL NETWORK LEARNING BASED ON DETERMINISTIC POLICY GRADIENT

基于确定性策略梯度的未经监督的语音到人工反演神经网络学习

(题目不懂..)

1. 摘要

本文提出了一种深度神经网络的无监督学习方法,该方法对任意话语执行听觉到发音的反转。常规的无监督声转发音反演方法基于综合分析方法和非线性优化算法。一个局限性在于,它们需要耗时的迭代优化来获得给定目标语音片段的发音参数。在学习了它们之间的关系后,神经网络无需迭代优化即可获得这些发音参数。然而,常规方法需要监督学习以及成对的声学和发音样本。我们提出了一种基于混合自动编码器的无监督学习框架,用于可捕获上下文信息的声学到发音反转神经网络。该框架的重点是使每一次的训练有效。我们研究了几种强化学习算法,并显示了确定性策略梯度的有用性。实验结果表明,所提出的方法不仅可以推断出训练参数的发音参数,而且还可以推断出不可见的发音。对于开放测试样品,平均重建误差与传统方法相似,甚至更低

关键词: Physical speech synthesis, acoustic-to-articulatory inversion, analysis-by-synthesis, reinforcement learning, distal lea

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值