Abstract
- 为什么要有后续的两次TTS增强合成
- 要凸显先主观使用Cross-Lingual Voice Conversion的理论意义, 统计意义, 结果. 但是论文好像只用了MOS来评测, 并没有用刁难的句子
- 论文先用VC, 在经过两次数据增强, 目的没说清楚, 不过也提到了是跨语言的因素覆盖率
- 最后的TTS用的是Tacotron, 因此合成的自然度会很高, 高于直接ppg_decode_spec结构
- 有的地方用的multi-speaker, 但是大部分用的独自的personal结构
- 用的aishell1中文的ASR
1. Introduction
- 构建双语和Code-Switch TTS时, 首次结合了CL-VC和CL-TTS,并且使用生成的语料相互增强, 实现了高自然度语音质量和说话者相似性
- Tacotron, Transformer, FastSpeech都有涉及, 并且开源代码指向性给出
2. Building Bilingual and Code-Switched TTS
2.0. 核心思路
- One of the keys to building such a TTS with monolingual data is to solve bilingual phonetic coverage [14]. We realize a full bilingual phonetic coverage by crosslingual VC for both speakers, that is, generating the Mandarin speaker’s English speech and the English speaker’s Mandarin speech. Thus, each of the original monolingual corpora is expanded to be bilingual