- microsoft USA
- Haibin Wu, internship
- demo page
- 【2024.7】
abstract
- motivation: 使用flow-matching的结构,实现对TTS细粒度的情感控制,并且能够合成【哭、笑】等非语言表达。
- dataset:清洗了2.7w 小时的情感数据;
- 基于meta的voicebox 架构,是对ELaTE工作的扩展(也是做细粒度情感控制,但是只能合成笑声)
method
NV embeddings:
- NV-non-verbal vocalizations
- laughter detector-based embedding 不仅包含笑的信息,还包含比如crying and moaning[呻吟]的信息;通过laughter detector model 提取的32-d embedding 表达非语言信息;
emotion embedding
- 作者先实验用情感分类模型的emotion embedding 作为情感控制,但是发现对于TTS合成情感比较难;也用过FACodec的prosody encoder结果,发现泄漏了很多文本信息,会把TTS合成的内容带偏;
- 最终通过一个预训练的arousal-valence-dominance extractor【22】提取【arousal、valence、dominance 】三个表示。本文使用了【arousal、valence】两个特征,将输出处理到【-0.5,0.5】之间,并且通过线性插值的方法将其与phone embeding对齐。作者实验发现dominance会损伤语音质量。
- arousal-valence-dominance extractor是一个wav2vec的base model,基于MSP-PODCAST data的数据finetune,用于预测【arousal、valence、dominance 】三个数值,0.5s win_size, 0.25s hop_size;输出0-1。
- 唤醒度 (arousal):指的是情绪的激动或兴奋程度,可以是从非常平静到非常激动。
- 效价 (valence):指的是情绪的愉悦或不愉悦程度,可以是从非常负面到非常正面。
- 支配值 (dominance):指的是情境中感受到的控制感或影响力,可以是从非常被动到非常主动。
清洗emotion data
- emotion2vec model [25] to obtain predicted emotion confidence scores,卡阈值筛数据;
- DNSMOS再卡一轮;
- 多人说话的句子删除;
experiment
- 首先不带NV embedding和emotion embedding,对模型进行预训练,然后用筛选的emotion data,+两个embedding finetune。