语音合成论文优选：终究还是来了SpeechNet: A Universal Modularized Model for Speech Processing Tasks

最新推荐文章于 2022-02-13 18:16:34 发布

我叫永强

最新推荐文章于 2022-02-13 18:16:34 发布

阅读量277

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习自然语言处理

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/116762881

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

SpeechNet: A Universal Modularized Model for Speech Processing Tasks

本文是国立台湾大学2021.05.07更新的文章，主要工作是多任务学习的通用模块化的模型研究，使多任务之间能够相互优化，具体的文章链接

https://arxiv.org/pdf/2105.03070.pdf

（该来的终究还是来了，以后的研究方向还是多重学习~）

1 研究背景

语音任务包括 speech recognition (ASR), speech enhancement (SE), speaker classification (SC), text-to-speech (TTS) synthesis, and voice conversion (VC)等等。历史研究表明多任务学习MTL可以相互促进，于是乎本文提出了SpeechNet系统，使多任务中的通用模块进行共享，从而提升每个任务的性能。

2 详细设计

SpeechNet如图1所示主要包括5个模块：1）Speaker Encoder extracting speaker embedding from audio. 2）Content Encoder extracting content embedding from audio. 3） Text Encoder mapping the input text to the content embedding space. 4）Audio Decoder synthesizing audio based on speaker and content embeddings. 5） Text Decoder producing text according to content embedding. ASR,TTS,VC等任务结构使用这5个模块的结构如图2所示（这里就不介绍每个模块的公式，读者可以参考论文），其中每个任务对通用模块影响大小可以参考文章提到的loss balance。

3 实验

各任务之间的关联如图3所示，其中每个任务相互之间的影响如图4和图5所示。table 1展示了任务之间影响在具体指标的具体结果。

4 总结

本文把语音多重任务进行模块化，使通用的模块进行共享，从而使任务之间能够相互优化。

我叫永强

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
语音合成论文优选：终究还是来了SpeechNet: A Universal Modularized Model for Speech Processing Tasks

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。欢迎关注微信公众号：低调奋进SpeechNet: A Universal Modularized Model for Speech Processing Tasks本文是国立台湾大学2021.05.07更新的文章，主要工作是多任务学习的通用模块化的模型研究，使多任务之间能够相互优化，具体的文章链接https://arxiv.org/pdf/2105.03070.
复制链接

扫一扫