SLT2021: CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS

最新推荐文章于 2024-08-09 19:49:38 发布

ruclion

最新推荐文章于 2024-08-09 19:49:38 发布

阅读量345

点赞数

分类专栏：研三-语音合成论文文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013625492/article/details/113002674

版权

0. 题目

CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS

语音代理的会话式端到端TTS

1. 摘要

端到端神经TTS在阅读风格语音合成方面取得了出色的表现。但是，由于语料库和建模能力的限制，构建高质量的会话式TTS仍然是一个挑战。这项研究的目的是在序列到序列建模框架下为语音代理建立对话式TTS。首先，我们采用一种新的录音方案来构建一个非常适合语音代理的自发性对话语音语料库，以确保录音质量和对话风格。其次，我们提出了一种会话上下文感知的端到端TTS方法，该方法采用了辅助编码器和会话上下文编码器来专门增强会话中当前话语及其上下文的信息。实验结果表明，所提出的方法根据会话上下文产生了更自然的韵律，在话语级和会话级均具有明显的偏好增益。此外，我们发现该模型具有表达某些自发行为的能力，例如填充词和重复单词，这使得会话说话的风格更加逼真

关键词: Text-to-Speech, End-to-End, Conversational TTS, Speech Corpus, Voice Agent

文本到语音，端到端，会话TTS，语音语料库，语音代理

2. 简介

文本语音转换（TTS）在人机对话中扮演着越来越重要的角色[1]，使机器能够与用户对话。但是，现有的TTS技术在面向会话的任务中仍然无法获得令人满意的性能和沉浸式体验。它仍然希望具有更人性化的自然语言，并具有适应特定对话环境的对话式讲话风格。为了构建高质量的会话TTS系统，至少需要解决

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SLT2021: CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS

0. 题目CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS语音代理的会话式端到端TTS1. 摘要端到端神经TTS在阅读风格语音合成方面取得了出色的表现。但是，由于语料库和建模能力的限制，构建高质量的会话式TTS仍然是一个挑战。这项研究的目的是在序列到序列建模框架下为语音代理建立对话式TTS。首先，我们采用一种新的录音方案来构建一个非常适合语音代理的自发性对话语音语料库，以确保录音质量和对话风格。其次，我们提出了一种会话上下文感知的端到端TTS方
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。