DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS 论文理解

-1. 说明DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESISDURIAN:告诉网络持续时间的多模态合成比 Tacotron 晚一些的 Paper, 应该是 更容易对齐的好, 希望训的也快0. 摘要在本文中,我们提出了一种通用且鲁棒的多模态合成系统,该系统可以产生很高的 自然语言和面部表情同时出现。该系统的关键部分是持续时间 知情注意力网络(DurIAN),一种自回归模型,其中 已经显性的从持续时间模
摘要由CSDN通过智能技术生成

-1. 说明

DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS

DURIAN:告诉网络持续时间的多模态合成

  • 比 Tacotron 晚一些的 Paper, 应该是 更容易对齐的好, 希望训的也快

0. 摘要

在本文中,我们提出了一种通用且鲁棒的多模态合成系统,该系统可以产生很高的 自然语言和面部表情同时出现。该系统的关键部分是持续时间 知情注意力网络(DurIAN),一种自回归模型,其中 已经显性的从持续时间模型推断出了输入文本和输出声学特征的 Alignment 的对应关系。这不同于 现有的端到端注意力机制,并说明了各种不可避免的人工的工作在端对端语音合成系统,例如Tacotron中, 其实还是不能完全避免的。此外,DurIAN可用于生成 高质量的面部表情,可与/不平行并行地与生成的语音同步 语音和面部数据。为了提高语音生成的效率,我们还提出了一种多频段 WaveRNN模型之上的并行生成策略。Proposed Multi-band 多波段WaveRNN 有效地将总的计算复杂度从9.8 GFLOPS降低到3.6 GFLOPS,并且能够 在单个CPU内核上生成的音频比实时速度快6倍。我们证明了DURIAN可以 产生高度自然的语音,与当前最先进的端到端系统相提并论, 同时避免在这些系统中出现单词跳过/重复错误。最后,一个简单而有效的方法 介绍了语音和面部表情表达能力的细粒度控制方法

1. Introduction

传统语音合成方法,包括连接方法[1,2]和统计参数系统 [3,4,5]都是基于声学特征分析和综合的。这些方法仍主要用于 由于它们在鲁棒性和效率方面的优势而在工业应用中发挥了重要作用。但是,这些方法存在以下缺点: 生成语音的自然性较差。端到端方法[6、7、8、9、10、11]最近备受关注 由于它们的综合结果具有明显更好的自然性,并且简化了培训流程。很遗憾, 现有的端到端系统在生成语音时缺乏鲁棒性,因为它们会产生不可预测的伪像 其中,在生成的语音中重复或跳过了源文本中的随机单词[7,11] esp。合成时 域外文本。对于多模式合成任务,语音和面部表情之间的同步是另一个 基于端到端的系统面临的挑战。语音和面部特征可以端对端成对生成 模型,这种方法需要大量配对的语音和面部表情数据进行训练。这样的配对语音 面部表情数据收集起来很昂贵,并且在所需的语音和虚拟场景下无法获得 图片来自不同的来源

  • [1] A. J. Hunt and A. W. Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” in 1996 IEEE International
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值