Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text

abstract

  • motivation: 使用flow-matching的结构,实现对TTS细粒度的情感控制,并且能够合成【哭、笑】等非语言表达。
  • dataset:清洗了2.7w 小时的情感数据;
  • 基于meta的voicebox 架构,是对ELaTE工作的扩展(也是做细粒度情感控制,但是只能合成笑声)

method

在这里插入图片描述

NV embeddings:

  • NV-non-verbal vocalizations
  • laughter detector-based embedding 不仅包含笑的信息,还包含比如crying and moaning[呻吟]的信息;通过laughter detector model 提取的32-d embedding 表达非语言信息;

emotion embedding

  • 作者先实验用情感分类模型的emotion embedding 作为情感控制,但是发现对于TTS合成情感比较难;也用过FACodec的prosody encoder结果,发现泄漏了很多文本信息,会把TTS合成的内容带偏;
  • 最终通过一个预训练的arousal-valence-dominance extractor【22】提取【arousal、valence、dominance 】三个表示。本文使用了【arousal、valence】两个特征,将输出处理到【-0.5,0.5】之间,并且通过线性插值的方法将其与phone embeding对齐。作者实验发现dominance会损伤语音质量。
  • arousal-valence-dominance extractor是一个wav2vec的base model,基于MSP-PODCAST data的数据finetune,用于预测【arousal、valence、dominance 】三个数值,0.5s win_size, 0.25s hop_size;输出0-1。
    • 唤醒度 (arousal):指的是情绪的激动或兴奋程度,可以是从非常平静到非常激动。
    • 效价 (valence):指的是情绪的愉悦或不愉悦程度,可以是从非常负面到非常正面。
    • 支配值 (dominance):指的是情境中感受到的控制感或影响力,可以是从非常被动到非常主动。

清洗emotion data

  • emotion2vec model [25] to obtain predicted emotion confidence scores,卡阈值筛数据;
  • DNSMOS再卡一轮;
  • 多人说话的句子删除;

experiment

  • 首先不带NV embedding和emotion embedding,对模型进行预训练,然后用筛选的emotion data,+两个embedding finetune。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值