语音合成(speech synthesis)方向五:多语言模型multi-lingual and code switch speech synthesis

本文稍长,希望能耐住性子看下去

声明:工作以来主要从事TTS工作,工程算法都有涉及,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 低调奋进。如转载,请标明出处。欢迎关注微信公众号:低调奋进


目录

1 研究背景

2 研究情况

2.1 迁移学习

2.1.1 系统架构设计

2.1.2 输入格式设计

2.2 数据增量(data augmentation)

3 总结

4  引用


1 研究背景

        随着国际化的进展,语言交叉使用现象也变得非常普遍,生活中的信息往往由多种语言混合使用(例如,中文的文本中包含英文的单词,英文中包含法语、德语等等),这给语音合成提出巨大挑战。处理多语言交叉的文本,最直观的方案是:让同一个说话人录制多种语言的训练语料,然后使用每种语言的训练语料来分别训练一个模型。当合成语音的时候,先把文本按照语言先进性切分,然后使用对应的模型合成部分语音片段,最后把合成的语音片段进行拼接。但该方法的缺点也很突出,有几种语言就要训练几个模型,这增加了内存开销,同时语音片段拼接也会出现很不自然的情况。现在主流的方案是把多语言语料混合在一起进行多语言模型的训练,这样当进行语音合成的时候就不需要进行模型切换,因此也避免的语言间切换的不自然现象。理想很丰满,现实很残酷。以上的两种方案的前提是需要同一个发音人具备多种语言的训练语料<speech, text>。通常,一种语言的标注语料都需要几十万开销,并且寻找精通多种语言而且音色优美的发音人更是难上加难。因此,使用多人的单语言语料来训练多语言(multilingual)模型成为近期研究的热点。

        对于使用多人单语言语料进行多语言模型的研究,需要解决很多问题。比如,多种语言如何统一标准格式进行输入?如何进行各种语言间的风格迁移?如何处理语言之间的切换(code switch),使切换更加自然?当前,机器学习的方法突飞猛进(比如:迁移学习(transfer learning), 知识共享(knowledge sharing), 声音复制(voice clone)等等),促使语音合成获得巨大的成功,因此本文针对语音合成在多语言模型上的研究进展进行总结,以供同行参考。

2 研究情况

到目前为止,发表的multilingual & code switch的相关文章很多,主要解决的问题如下:1)多语言之间的输入格式问题,如何保留语言之间的上下文信息,切换更自然;2)如何进行语言与说话人之间进行解耦,使其说话人可以进行语言复刻(同一个说话人讲多种语言);处理以上的问题,大部分文章的解决方案可以归纳为迁移学习(transfer learning)和数据增量(data augmentation),接下来我将选取这两年具有代表性的文章进行总结。文章列表如下:

1)迁移学习:

       a)系统架构设计

  1. Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

  2. Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario

  3. One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech

        b) 输入内容格式设计

  1. End-to-End Code-Switching TTS with Cross-Lingual Language  Model

  2.  Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker Adaptation and Pronunciation Enhancement

  3. Phonological Features for

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值