​Interspeech 2022 | 探索非自回归跨语言语音合成中的音色解耦问题

本文介绍了网易游戏广州 AI Lab 在 Interspeech 2022 发表的研究,探讨了非自回归跨语言语音合成中的音色解耦问题。论文提出音素长度调节模块解决IPA序列与单语言对齐系统的不匹配,并在FastPitch基础上改进,实验证明增加训练数据说话人数量、音高和能量建模有助于音色和语言信息解耦。
摘要由CSDN通过智能技术生成

82afb650bef711b974afe48f17974dbc.gif

©PaperWeekly 原创 · 作者 | 音月

研究方向 | 语音合成

d18d6a2cb6217299bb75cb2230d312cc.png

引言

语音合成(Text-to-Speech, TTS)是指文字转语音相关技术。随着人工智能技术的发展,TTS 的声学模型和声码器模型效果都在不断提高,单一语言在数据量足够的情况下已经可以合成较高品质的语音。

研究人员们也逐渐开始关注跨语言语音合成领域,本文介绍网易游戏广州 AI Lab 在 Interspeech 2022 中发表的一篇跨语言语音合成论文《Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech》,该论文提出了音素长度调节模块来解决 IPA 序列与单语言对齐系统对齐结果的不匹配问题,同时使用了基于 Fastpitch 的非自回归声学模型,实验结果表明了训练集说话人数量的增加、音高和能量的显示建模(主要是音高)都有助于非自回归跨语言 TTS 中说话人音色和语言的信息解耦。

acd842f22c07411408752b496f239716.png

论文标题:

Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech

论文链接:

https://arxiv.org/abs/2110.07192

演示网址:

https://hyzhan.github.io/NAC-TTS/

38d2270ed1dbcde84615a88d194713db.png

论文相关背景

目前跨语言TTS的主要实现方法有:跨语言中间特征、跨语言文本表示、对抗式训练、发音单元设计、跨语言文本处理模型等。更多相关背景知识及发展概述可阅读:《跨语言语音合成方法的发展趋势与方向》,本文不再赘述。

近年来,FastSpeech、FastPitch、FastSpeech2 等非自回归声学模型除了在语音生成速度上表现出巨大优势,生成语音自然程度也越来越高,相关论文作者试图在跨语言语音合成系统中使用非自回归声学模型,但是由于典型的非自回归声学模型需要加入显式的音素发音时长进行模型训练,这会导致模型增加使用 IPA 这类跨语言文本表示的难度(因为这样会需要有一个跨语言的文本语音对齐系统)。

该论文提出了音素长度调节模块来避免这个问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值