语音合成论文优选:终究还是来了SpeechNet: A Universal Modularized Model for Speech Processing Tasks

​声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


SpeechNet: A Universal Modularized Model for Speech Processing Tasks

本文是国立台湾大学2021.05.07更新的文章,主要工作是多任务学习的通用模块化的模型研究,使多任务之间能够相互优化,具体的文章链接

https://arxiv.org/pdf/2105.03070.pdf


(该来的终究还是来了,以后的研究方向还是多重学习~)

1 研究背景

   语音任务包括 speech recognition (ASR), speech enhancement (SE), speaker classification (SC), text-to-speech (TTS) synthesis, and voice conversion (VC)等等。历史研究表明多任务学习MTL可以相互促进,于是乎本文提出了SpeechNet系统,使多任务中的通用模块进行共享,从而提升每个任务的性能。

2 详细设计

   SpeechNet如图1所示主要包括5个模块:1)Speaker Encoder extracting speaker embedding from audio. 2)Content Encoder extracting content embedding from audio. 3) Text Encoder mapping the input text to the content embedding space. 4)Audio Decoder synthesizing audio based on speaker and content embeddings. 5) Text Decoder producing text according to content embedding. ASR,TTS,VC等任务结构使用这5个模块的结构如图2所示(这里就不介绍每个模块的公式,读者可以参考论文),其中每个任务对通用模块影响大小可以参考文章提到的loss balance。

3 实验

各任务之间的关联如图3所示,其中每个任务相互之间的影响如图4和图5所示。table 1展示了任务之间影响在具体指标的具体结果。

4 总结

本文把语音多重任务进行模块化,使通用的模块进行共享,从而使任务之间能够相互优化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值