Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervise TTS

林林宋

已于 2022-05-12 18:52:12 修改

阅读量337

点赞数

分类专栏： paper笔记文章标签：深度学习人工智能

于 2022-05-12 16:31:46 首次发布

原文链接：https://arxiv.org/abs/2110.04153

版权

162 篇文章 24 订阅

订阅专栏

任务：跨说话人情感迁移的TTS
方法：训练一些emotion tokens代表不同的情感。同时为了避免cross-speaker emotion transfer带来的音色相似度下降的问题，使用speaker condition layer norm建模说话人身份。

监督方法需要标注数据量大；无监督方法得到的embedding可解释性 & 可控性比较差。
半监督的方法：semi-GST【16】，multi-reference methods【15， 17】
contribution:
- 基于parallel Tacotron，使用GST和半监督的方法实现可控的cross-speaker emotion transfer；
- 引入speaker condition layer normalization (SCLN)，保证迁移过程中音色一致性；
作者认为：非自回归的结构更有利于特征解耦（因为不依赖上一帧的信息）。

GST对整句进行编码，得到fix-length embedding，然后作为query和emotion tokens计算加权和（sing head attention）。
为了确保使用的emotion emb和情感标签是一一对应的关系，使用emotion classifier计算emotion emb和one-hot emotion ID的误差。推理阶段，emotion embedding可以通过ID*token直接得到想要。
target说话人没有情感标注的情况，target spaeker的emotion loss不计算，target utterance emotion embedding通过attention计算得到。source speaker是包含7种情绪标签的数据。

在这里插入图片描述

关注

专栏目录