2021-01-27 TODO

最新推荐文章于 2022-01-23 10:39:52 发布

去追啊

最新推荐文章于 2022-01-23 10:39:52 发布

阅读量163

点赞数

分类专栏：日报

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40801853/article/details/113207080

版权

日报专栏收录该内容

27 篇文章 0 订阅

订阅专栏

本文档详述了开发语音转换系统（VC）的任务，包括从头开始构建VC系统，阅读博士论文，实现ASR-TTS pipeline，为ICASSP2021准备介绍，设计Speechflow相关实验，每日论文阅读，提升工程能力，撰写M2VoC技术报告，以及进行数据处理和实验结果分析。当前重点是搭建稳定VC系统，优化decoder，增加训练数据，编写批量合成脚本，并讨论技术报告的编写策略。

摘要由CSDN通过智能技术生成

任务

1. 从0实现一个vc系统【假期14天最低的flag】

2. 找段时间把那篇博士论文看了。

（2. [公司] fastsvc，实现一个asr-tts pipeline的、稳定的vc系统，1月22日周五前确定并搭建完基本框架。）

3. [icassp2021] introduction分为两部分：introduction + prior work；1.29周五放到arxiv上

4. [speechflow-related] 设计实验，确定之后的实验思路。

5. [看论文] 每日更新➕之前攒下的

6. [工程能力] 与任务2相结合，多看一些github代码

9. [公司] M2VoC的技术report

10. 把nus的数据传到公司服务器，用baseline合成试一下；把libritts的train-clean-360加入训练数据，因为有2456个speaker，585个小时。

今日 TODO

~~1. 分发数据下载脚本~~

2. page记录不同实验的结果，除了网页现有的结果（音频+component removed）还要加一些wer，pitch曲线等；还要对groundtruth做mos评分

3. decoder换成attention-based的decoder，几个序列直接拼接加起来；transformer：为了建模几百帧（序列较长，lstm可能无法handle）

4. 加一些训练数据，增加说话人

~~5. 讨论M2VoC的技术report咋写~~

6. hierarchical representation learning的相关文献

7. 写一个批量合成的脚本，批量合成多个实验

8. 多卡的脚本

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。