DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS 论文理解

ruclion

于 2021-03-15 12:38:13 发布

阅读量507

点赞数

分类专栏：研三-语音合成论文文章标签：自然语言处理

本文链接：https://blog.csdn.net/u013625492/article/details/114827085

版权

-1. 说明DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESISDURIAN：告诉网络持续时间的多模态合成比 Tacotron 晚一些的 Paper, 应该是更容易对齐的好, 希望训的也快0. 摘要在本文中，我们提出了一种通用且鲁棒的多模态合成系统，该系统可以产生很高的自然语言和面部表情同时出现。该系统的关键部分是持续时间知情注意力网络（DurIAN），一种自回归模型，其中已经显性的从持续时间模

摘要由CSDN通过智能技术生成

-1. 说明

DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS

DURIAN：告诉网络持续时间的多模态合成

比 Tacotron 晚一些的 Paper, 应该是更容易对齐的好, 希望训的也快

0. 摘要

在本文中，我们提出了一种通用且鲁棒的多模态合成系统，该系统可以产生很高的自然语言和面部表情同时出现。该系统的关键部分是持续时间知情注意力网络（DurIAN），一种自回归模型，其中已经显性的从持续时间模型推断出了输入文本和输出声学特征的 Alignment 的对应关系。这不同于现有的端到端注意力机制，并说明了各种不可避免的人工的工作在端对端语音合成系统，例如Tacotron中, 其实还是不能完全避免的。此外，DurIAN可用于生成高质量的面部表情，可与/不平行并行地与生成的语音同步语音和面部数据。为了提高语音生成的效率，我们还提出了一种多频段 WaveRNN模型之上的并行生成策略。Proposed Multi-band 多波段WaveRNN 有效地将总的计算复杂度从9.8 GFLOPS降低到3.6 GFLOPS，并且能够在单个CPU内核上生成的音频比实时速度快6倍。我们证明了DURIAN可以产生高度自然的语音，与当前最先进的端到端系统相提并论, 同时避免在这些系统中出现单词跳过/重复错误。最后，一个简单而有效的方法介绍了语音和面部表情表达能力的细粒度控制方法。

1. Introduction

传统语音合成方法，包括连接方法[1，2]和统计参数系统 [3，4，5]都是基于声学特征分析和综合的。这些方法仍主要用于由于它们在鲁棒性和效率方面的优势而在工业应用中发挥了重要作用。但是，这些方法存在以下缺点：生成语音的自然性较差。端到端方法[6、7、8、9、10、11]最近备受关注由于它们的综合结果具有明显更好的自然性，并且简化了培训流程。很遗憾，现有的端到端系统在生成语音时缺乏鲁棒性，因为它们会产生不可预测的伪像其中，在生成的语音中重复或跳过了源文本中的随机单词[7，11] esp。合成时域外文本。对于多模式合成任务，语音和面部表情之间的同步是另一个基于端到端的系统面临的挑战。语音和面部特征可以端对端成对生成模型，这种方法需要大量配对的语音和面部表情数据进行训练。这样的配对语音面部表情数据收集起来很昂贵，并且在所需的语音和虚拟场景下无法获得图片来自不同的来源

[1] A. J. Hunt and A. W. Black, “Unit selection in a concatenative speech synthesis system using a large speech database,” in 1996 IEEE International

最低0.47元/天解锁文章

ruclion

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS 论文理解

-1. 说明DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESISDURIAN：告诉网络持续时间的多模态合成比 Tacotron 晚一些的 Paper, 应该是更容易对齐的好, 希望训的也快0. 摘要在本文中，我们提出了一种通用且鲁棒的多模态合成系统，该系统可以产生很高的自然语言和面部表情同时出现。该系统的关键部分是持续时间知情注意力网络（DurIAN），一种自回归模型，其中已经显性的从持续时间模
复制链接

扫一扫

专栏目录