语音合成（TTS）论文优选：Controllable Emotion Transfer For End-to-End Speech Synthesis

最新推荐文章于 2023-12-12 15:46:37 发布

我叫永强

最新推荐文章于 2023-12-12 15:46:37 发布

阅读量1.1k

点赞数 1

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习自然语言处理机器学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110238290

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Controllable Emotion Transfer For End-to-End Speech Synthesis

本文是2020.11.17号西北工业大学谢老师组的文章，文章主要做情感TTS,可以很好的迁移情感风格和控制情感强弱，具体的文章链接 https://arxiv.org/pdf/2011.08679.pdf

（一直很想做情感TTS和歌唱合唱，感觉很酷。但一直没这个机会，公司没这个业务，而且数据很贵，听说音乐干声标注的训练数据就需要上百万开销，所以还是看看文章，为以后做方案准备）

1 研究背景

情感TTS应用还是非常有趣，比如小说阅读，配音等场景。训练情感TTS需要获取情感的表征，例如愤怒，开心，嫌弃，伤心等等。现有的情感TTS存在情感混合，分离不清，情感强弱控制难的问题。针对以上问题，本文提出可以获取较好的情感TTS,并且可以进行强弱控制。demo 链接https://silyfox.github.io/iscslp-98-demo/

2 详细的系统设计

本文是在tacotron2进行修改，具体系统结构如图1所示。本系统主要有三模块四个loss:tacotron2,emotion embedding network和auxiliary newwork。emotion embedding network 把参考的音频mel谱先通过reference encoder，然后输入到emotion classifier进行情感分类，该部分的loss为L cls.src。情感的表征使用的是第二层fc的输出作为emotion embedding ，该表征输入到tacotron2的encoder中。tacotron2不再介绍，主要把语言特征生成声学特征，其loss为Ltac，该部分预测的输出mel特征输入到auxiliary network中在此进行情感分类。auxiliary network对tacotron2预测的mel特征进行分类，其loss为Lcls_tag。其中把第二层的FC输出与emotion embedding network输出的emotion embedding进行gram matrices对比，其loss为Lsty。因此系统的总LOSS如公式3。（主要auxiliary和emotion network之间style loss设计的很好）

语音合成（TTS）论文优选：Emotion TTS