自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

林宋的搬砖流水账

林林宋 CSDN认证博客专家 CSDN认证企业博客

码龄7年

183: 原创

2万+: 周排名

6445: 总排名

33万+: 访问

: 等级

5048: 积分

194: 粉丝

171: 获赞

69: 评论

727: 收藏

私信

关注

分类专栏

最新评论

风格迁移adaIN 和iT的adaLN
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
虚拟环境管理
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)增加除了各种控件外，文章正文的字数。
mega-TTS 1&2
weixin_39414422: 多谢你的分享！请问论文中提到的“The prosody encoder, timbre encoder, and mel generator consist of 5 convolutional blocks with 320 hidden size, 5 convolution 1D kernel size.”，没看懂具体用的设么模型，就是堆叠了Conv吗，还是TransformerEncoderLayer，如果是后者，请问head是多少？
多语言TTS：Multilingual speech synthesis
Lion Long: 不错的文章，受益匪浅，文章内容丰富，条理清晰，值得一波关注！
mega-TTS 1&2
WellDone_: 您好，请问，mega2训练时，MRTE的输入mel和VQ Prosody Encoder的输入mel一样吗，一样的话音色信息和韵律信息如何解耦呢，不一样的话，MRTE中所需要的text和韵律编码器中用来phone pool的text不就不一样了？

最新文章

flowwavenet

关注

文章平均质量分 98

关注数：文章数：4 文章阅读量：3292 文章收藏量：8

作者: 林林宋

不要急，不要慌，知识总是一点点积累起来的

展开