语音合成（speech synthesis）方向五：多语言模型multi-lingual and code switch speech synthesis

最新推荐文章于 2025-02-21 15:02:36 发布

我叫永强

最新推荐文章于 2025-02-21 15:02:36 发布

阅读量3.4k

点赞数 4

分类专栏：语音合成综述文章标签：语音识别人工智能深度学习 tts 机器学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/111030859

版权

本文探讨了多语言模型在语音合成中的研究背景和现状，重点介绍了迁移学习和数据增量策略在处理多语言混合文本中的应用。文章列举了近年来具有代表性的研究，展示了如何通过系统架构设计和输入格式优化来实现更自然的语言切换。尽管面临数据和模型解耦的挑战，但迁移学习的进步为多语言语音合成带来了显著的提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文稍长，希望能耐住性子看下去

声明：工作以来主要从事TTS工作，工程算法都有涉及，平时看些文章做些笔记。文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据低调奋进。如转载，请标明出处。欢迎关注微信公众号：低调奋进

2.2 数据增量（data augmentation)

3 总结

4 引用

1 研究背景

随着国际化的进展，语言交叉使用现象也变得非常普遍，生活中的信息往往由多种语言混合使用（例如，中文的文本中包含英文的单词，英文中包含法语、德语等等），这给语音合成提出巨大挑战。处理多语言交叉的文本，最直观的方案是：让同一个说话人录制多种语言的训练语料，然后使用每种语言的训练语料来分别训练一个模型。当合成语音的时候，先把文本按照语言先进性切分，然后使用对应的模型合成部分语音片段，最后把合成的语音片段进行拼接。但该方法的缺点也很突出，有几种语言就要训练几个模型，这增加了内存开销，同时语音片段拼接也会出现很不自然的情况。现在主流的方案是把多语言语料混合在一起进行多语言模型的训练，这样当进行语音合成的时候就不需要进行模型切换，因此也避免的语言间切换的不自然现象。理想很丰满，现实很残酷。以上的两种方案的前提是需要同一个发音人具备多种语言的训练语料<speech, text>。通常，一种语言的标注语料都需要几十万开销，并且寻找精通多种语言而且音色优美的发音人更是难上加难。因此，使用多人的单语言语料来训练多语言（multilingual)模型成为近期研究的热点。

对于使用多人单语言语料进行多语言模型的研究，需要解决很多问题。比如，多种语言如何统一标准格式进行输入？如何进行各种语言间的风格迁移？如何处理语言之间的切换（code switch)，使切换更加自然？当前，机器学习的方法突飞猛进（比如：迁移学习（transfer learning)，知识共享（knowledge sharing), 声音复制(voice clone)等等），促使语音合成获得巨大的成功，因此本文针对语音合成在多语言模型上的研究进展进行总结，以供同行参考。

2 研究情况

到目前为止，发表的multilingual & code switch的相关文章很多，主要解决的问题如下：1）多语言之间的输入格式问题，如何保留语言之间的上下文信息，切换更自然；2）如何进行语言与说话人之间进行解耦，使其说话人可以进行语言复刻（同一个说话人讲多种语言）；处理以上的问题，大部分文章的解决方案可以归纳为迁移学习（transfer learning）和数据增量（data augmentation)，接下来我将选取这两年具有代表性的文章进行总结。文章列表如下：

1）迁移学习：

a）系统架构设计

Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning
Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario
One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech

b) 输入内容格式设计

End-to-End Code-Switching TTS with Cross-Lingual Language Model
Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker Adaptation and Pronunciation Enhancement
Phonological Featu