引言
“ Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling ”。
微软亚洲研究院最近发布了 VALL-E X,可以通过一个几秒的源语音片段生成目标语言的语音,并保留说话者的声音、情感和声学环境。VALL-E X 不需要说话人的跨语言语音进行训练即可执行各种语音生成任务,例如跨语言文本到语音、语音合成和语音到语音翻译。
VALL-E X 的应用范围非常广泛,可以用于跨语言文本到语音、语音合成和语音到语音翻译等各种任务。无论是商业用途还是个人用途,VALL-E X都可以帮助用户更轻松地进行跨语言交流和文本转语音任务。
论文地址:https://arxiv.org/pdf/2303.03926
Github地址:GitHub - Plachtaa/VALL-E-X
HuggingFace地址:https://huggingface.co/spaces/Plachta/VALL-E-X
项目主页:VALL-E (X)
1 摘要
本文提出了一种跨语言神经编解码器语言模型VALL-E X,用于跨语言语音合成。该模型可以通过使用源语言语音和目标语言文本作为提示来预测目标语言语音的声学令牌序列。实验结果表明,VALL-E X可以通过仅使用源语言语音作为提示来生成高质量的目标语言语音,同时保留未见过的说话者的声音、情感和声学环境。此外,VALL-E X有效地缓解了外语口音问题,可以通过语言ID进行控制。
2 简介
近年来,端到端的文本到语音合成技术取得了显著进展,但是跨语言语音合成的质量仍然落后于单语言模型,原因在于数据稀缺和模型能力不足。跨语言语音合成是一个新兴的任务,旨在将说话者的声音从一种语言转移到另一种语言。现有模型只能为特定语言和特定说话者生成高质量的语音。
以往的方法在端到端的TTS模型中加入特定的子网络来解决说话人和语言控制的挑战。然而,这些方法在零样本情况下合成目标语音时效果不佳,并且常常存在说话人相似度和第二语言口音的问题。
本文提出了一种新颖的跨语言神经编解码语言模型VALL-E X,通过强大的上下文学习能力实现高质量的零-shot跨语言语音合成。VALL-E X能够从源语言转移语音特征,包括说话人的声音、情感和语音背景,并减轻外语口音问题。通过获取多语言语音转录数据和离线神经编解码编码器,训练多语言条件语言模型。VALL-E X在大规模多说话人数据集上进行训练,包括英语有声读物数据和多领域中文ASR数据。VALL-E X是一种跨语言TTS系统,它通过使用多种语言的语音数据来提高覆盖范围和泛化能力。与以前的跨语言TTS系统相比,VALL-E X有更好的表现。
分别在零样本跨语言文本到语音合成和零样本语音到语音翻译两种跨语言语音生成任务上实验。VALL-E X框架在英语和中文的数据集上进行了评估,包括英语TTS和中文TTS,以及中英双向翻译任务。实验结果表明,VALL-E X在说话人相似度、语音质量、语音自然度和人类评估等方面均表现出色,优于强基线模型。作者的贡献在于提出了一种有效的跨语言语音生成框架,可以在不同语言之间实现高质量的语音合成和翻译。