Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text

林林宋

于 2024-07-24 21:47:11 发布

阅读量114

点赞数

文章标签：深度学习

原文链接：https://arxiv.org/abs/2407.12229

版权

microsoft USA
Haibin Wu, internship
demo page
【2024.7】
文章目录

abstract

motivation: 使用flow-matching的结构，实现对TTS细粒度的情感控制，并且能够合成【哭、笑】等非语言表达。
dataset：清洗了2.7w 小时的情感数据；
基于meta的voicebox 架构，是对ELaTE工作的扩展（也是做细粒度情感控制，但是只能合成笑声）

method

在这里插入图片描述

NV embeddings：

NV-non-verbal vocalizations
laughter detector-based embedding 不仅包含笑的信息，还包含比如crying and moaning[呻吟]的信息；通过laughter detector model 提取的32-d embedding 表达非语言信息；

emotion embedding

作者先实验用情感分类模型的emotion embedding 作为情感控制，但是发现对于TTS合成情感比较难；也用过FACodec的prosody encoder结果，发现泄漏了很多文本信息，会把TTS合成的内容带偏；
最终通过一个预训练的arousal-valence-dominance extractor【22】提取【arousal、valence、dominance 】三个表示。本文使用了【arousal、valence】两个特征，将输出处理到【-0.5，0.5】之间，并且通过线性插值的方法将其与phone embeding对齐。作者实验发现dominance会损伤语音质量。
arousal-valence-dominance extractor是一个wav2vec的base model，基于MSP-PODCAST data的数据finetune，用于预测【arousal、valence、dominance 】三个数值，0.5s win_size， 0.25s hop_size；输出0-1。
- 唤醒度 (arousal)：指的是情绪的激动或兴奋程度，可以是从非常平静到非常激动。
- 效价 (valence)：指的是情绪的愉悦或不愉悦程度，可以是从非常负面到非常正面。
- 支配值 (dominance)：指的是情境中感受到的控制感或影响力，可以是从非常被动到非常主动。

清洗emotion data

emotion2vec model [25] to obtain predicted emotion confidence scores，卡阈值筛数据；
DNSMOS再卡一轮；
多人说话的句子删除；

experiment

首先不带NV embedding和emotion embedding，对模型进行预训练，然后用筛选的emotion data，+两个embedding finetune。

博客等级

码龄8年

206
原创

406
点赞

1031
收藏

338
粉丝

关注

私信

分类专栏

展开全部收起

最新评论

SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound
logokey: 请教，他的码率是如何计算的？谢谢
mega-TTS 1&2
学习小呆呱: 我发现作者在ICLR的版本和arxiv上的有些许差别，但是ICLR给出了更多的实现细节。
mega-TTS 1&2
林林宋: 就是这几个模块都是conv的结构
mega-TTS 1&2
林林宋: 你是这位好人吗
mega-TTS 1&2
utopiaboy: 有位好人进行了非官方实现: https://github.com/LSimon95/megatts2, 请问您可以参与吗?

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。