TTS行业调研20221201

林林宋

已于 2022-12-02 10:39:33 修改

阅读量563

点赞数 1

分类专栏： paper笔记文章标签：深度学习

于 2022-12-01 22:56:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40168949/article/details/128139285

版权

paper笔记专栏收录该内容

162 篇文章 23 订阅

订阅专栏

文章目录

微软
diffusion model

微软

相关方向

diffusion做双声道音频生成
旋律生成：直接生成/给定歌词生成旋律
歌曲识别：数据增广的方式修改现有说话的风格，减少和歌唱之间的gap

现有技术的改进点

前端

Bert改进，使用phn & sup-phn信息，增强TTS context encoder的能力；

声学模型

SSIM/laplace mix改进合成语音质量（renyi也有文章2022ACL，博客也有记录）
DelightfulTTS：Blizzard Challenge 2021，基于comformer做的，local&global dependence
- (1)声学模型生成16k mel, Hifinet-vocoder直接上采样到48k Hz;
- (2)显式特征（语言id，说话人id，pitch/duration), 隐式特征（utt-level, phn-level的韵律特征）
DelightfulTTS2 （2022 interspeech)
- 联合训练：DelightfulTTS-encoder,VQ-GAN（decoder&vocoder)
- not mel（损失相位信息），VQ-GAN提取特征

小样本

Adaspeech 4: zero-shot TTS

diffusion model

diffusion model的首篇综述

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TTS行业调研20221201

近两年行业&学术界语音合成方向动态
复制链接

扫一扫

专栏目录

林林宋 CSDN认证博客专家 CSDN认证企业博客

码龄7年

186: 原创

3万+: 周排名

1万+: 总排名

34万+: 访问

: 等级

5163: 积分

215: 粉丝

193: 获赞

73: 评论

773: 收藏

私信

关注

分类专栏

最新评论

mega-TTS 1&2
学习小呆呱: 我发现作者在ICLR的版本和arxiv上的有些许差别，但是ICLR给出了更多的实现细节。
mega-TTS 1&2
林林宋: 就是这几个模块都是conv的结构
mega-TTS 1&2
林林宋: 你是这位好人吗
mega-TTS 1&2
utopiaboy: 有位好人进行了非官方实现: https://github.com/LSimon95/megatts2, 请问您可以参与吗?
风格迁移adaIN 和DiT的adaLN
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。