10月份语音合成任务安排: 商业化的普通话合成 (质量, 速度, 准确度, 韵律)

最新推荐文章于 2021-04-21 10:50:14 发布

ruclion

最新推荐文章于 2021-04-21 10:50:14 发布

阅读量350

点赞数

分类专栏：研二-语音合成研二-Maybe 文章标签：语音合成月初计划 TTS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013625492/article/details/102086124

版权

研二-语音合成同时被 2 个专栏收录

36 篇文章 9 订阅

订阅专栏

20 篇文章 0 订阅

订阅专栏

-1.0 首先趁着国庆节把9月份的任务完成, 快速整理, 难的或者繁琐的作为10月份任务之一, 但不再拓展, 即使拓展, 也只是先记下来, 后来发现还是太多了, 记下来的在下午去完成, 上午8到12点学习新的.

复现两篇论文, 结构实现细节进行说明, 训练步数+batch也标记, 并且以网页形式做出对比, 尤其是口音clone, 模仿着论文分析, 画出表格和图像 (如embedding vec). 代码备份, 报告完成并备份.
phoneme的放出no-ref-no-vae版本的, 只要中文声音.
照着自己琢磨的 "Break it down into text and timbre and accent factors"去实现. 为了实现效果, 需要琢磨几个loss的相对设置, 至少要打印出来看一看, 积累经验. 同时网络超参数尽量用之前实验的. 需要新的数据集, vae支持, 新合成的动态加入策略. 和复现论文结合起来搞一篇论文.
更加细致化分析: 设计实验让残留在各部分的不属于该部分的信息暴露出来, 在cs部分, 对于language id在decoder部分的炫技. 比如用vad, 比如用stop token一样的. 当然, 直接加到文本序列, 或者encoder_output也行, 不涉及序列变换.

-1.1 整理interspeech, 至少是ipyb和静北师兄讲的.

-1.1 数据挖掘, 工程化TF2, python细节和算法.

0. 0 尽快对接已有数据, 防止出问题. 可以单独训练, 可以base+X.

0.1英伟达的代码跑出来, 分析各个代码, vocoder在不使用工程技巧的inference时间, 作为baseline. 看是否不用优化就能忍. 要么就简单的分段优化. 看看有没有分布式的可能, 或者加大reduction_factor, 真不行了就都延迟2s.

T2+GL
T2+WaveNet (感觉时间上不靠谱)
T2+WaveRNN (感觉时间上不太靠谱)
T2 (Nvidia) + WaveGlow
梅林, Merlin, spss的, 作为速度以及正确率的backup
T2+SPTK
T2+word
T2+...

1. 自己想的线段树Tacotron-transfermer, 其实和fastspeech很像, 实现它. 处理duration的地方不太优美.

2. 想想怎么提升普通话的丰富的情感. (重点)

3. 新想法, 同位素, 同分异构. 避免某些训练不充分产生的问题.

4. 最后弄一个快的ASR, 搞一个"英特尔版本"的.

5. 迭代的 (递归的) 残差网络, 以及模拟低精度到高精度, 以及模拟数据挖掘中小数位拉出来.

6. 每次改个参数, 改个结构, 就需要全部重头训练. 唱歌.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。