2020年12月_ruclion

原创 2020-12-31实习组会

东芝论文: building multilingual TTS using cross-lingual voice conversion

2020-12-31 18:20:01 117

所有任务和DDL[学校] 师兄们发表论文收集到wiki, 把压缩包19的关联上去.自发 [学校] 重音论文介绍PPT, 录制讲解视频15min, 之后就这这个写篇小专利.1月5日周二晚24:00截止, 最好提前点 [ivory tower] 观察voice clone的speaker encoder性质, 先更稳妥的总结复现一下, 思考计划, 基于观察, 总结观察到的现象. 自发 [公司]LID修正,做PPT讨论并且描述清楚多说话人数据集的问题definetion,多增加几个说话人防止过...

2020-12-31 11:31:50 111 1

原创 2020-12-30工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki, 把压缩包19的关联上去.自发 [学校] 重音论文介绍PPT, 录制讲解视频15min.1月5日周二晚24:00截止, 最好提前点 [学校] 观察voice clone的speaker encoder性质, 先思考计划, 基于观察, 总结观察到的现象.1/13日周三晚24:00截止, 组会 [公司]LID修正,做PPT讨论,多增加几个说话人防止过拟合, 移到春春, 如何预训练后再训春春, 请教下陈峰,之后关于loss(比如了l1...

2020-12-30 14:12:21 87

原创 2020-12-29工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki, 把压缩包19的关联上去.自发 [学校] 重音论文介绍PPT, 录制讲解视频15min.1月5日周二晚24:00截止, 最好提前点 [学校] 观察voice clone的speaker encoder性质, 先思考计划, 基于观察, 总结观察到的现象.1/13日周三晚24:00截止, 组会 [公司]LID修正,多增加几个说话人防止过拟合, 移到春春, 如何预训练后再训春春, 请教下陈峰,做PPT讨论.12/31日周四晚24:00...

2020-12-29 13:44:13 113

原创 2020-12-27-HCSI组会

1. 杰哥Cotatron1.1. Transcription-guided借用预训练好的Tacotron的attention部分 mel提供两个地方, 和txt的拼接, 同时也residual信息单独送入Decoder 刚好借鉴attention可以实现mel和txt拓展序列的对齐 L = matmul(A, Encoder(T))叫一个变量, 类似于PPG. 特别好的解耦了, 因为利用到了attention的机制1.2. Tacotron + speaker encoder借鉴了风格

2020-12-27 14:44:02 174

原创 Fantasy Mix-Lingual Tacotron Version 4: Google-ZYX-Phoneme-HCSI-DBMIX 调整LID

0. 说明VAE + LID效果目前是最好的, 将LID调整下, 不在decoder拼接LID, 在encoder_output处拼接1. 枚举方案有以下方案speaker emb和residual仍然在decoder拼接, 只LID在前面全部提到前面其实也是有问题的, RNN会不会把Phoneme整错位了, LID用不用直接拼接到phoneme embedding上; 不过差别还挺大的, 因为拼接到encoder_output, 很强的语言信息了同时把Fantasy Mix-L.

2020-12-25 18:17:36 136

原创 AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 优化调整方案

0. 说明论文不太好直接出效果, 下面列出ke能有效地注意事项1. bottleneck1.1. 目前参数信息瓶颈是最关键的部分, 在说话人embedding256, decoder第一层会dim变为512的前提下, 本文仅仅依赖content dim, down sampling factor两个地方控制信息瓶颈的大小, 论文中采用:标准的32, 32 信息狭窄16, 128 信息宽阔256, 8, 同时不进行L_content的计算代码中默认参数:使用16, 161.2.

2020-12-25 16:29:02 427

原创 2020-12-25工作安排和学习内容

大家圣诞节快乐~所有任务和DDL[学校] 师兄们发表论文收集到wiki, 把压缩包19的关联上去.自发 [学校] 重音论文介绍PPT, 录制讲解视频15min.1月5日周二晚24:00截止, 最好提前点 [学校] 观察voice clone的speaker encoder性质, 先思考计划, 先别乱猜解决方案, 基于观察再发散.1/13日周三晚24:00截止, 组会 [公司]看4版本效果,多增加几个说话人防止过拟合, 移到春春, 如何预训练后再训春春, 请教下陈峰, 做PPT讨论....

2020-12-25 11:17:03 90

原创英文G2P模块和标准-Version2-HCSI

0. 说明静北师兄和杰哥用的G2P, 还没有仔细理解Git:C:\Users\rucli\Desktop\phoneme converter\phoneme converter服务器卡..还未上传..1. 用法照着里面的demo即可, '@'等细节为个人习惯~

2020-12-24 18:37:23 692 3

原创 CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit 数据理解

0. 说明此CSTR VCTK语料库包含109英文说出的语音数据具有各种口音的扬声器。每个扬声器读出约400 从报纸上选出的句子，彩虹段落还有一个用于语音口音档案的启发段落。报纸文字经格拉斯哥先驱报许可来自《先驱报》和时代集团。每个演讲者都有不同的报纸文本的选择基于贪婪算法，该算法增加了上下文和语音覆盖。彩虹的段落和启发段落对于所有人都是相同的彩虹段落可以在国际方言中找到英文档案馆：（http://web.ku.edu/~idea/readings/rainbo...

2020-12-24 17:09:00 3212 5

原创 2020-12-24工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki.自发 [学校] 观察voice clone的speaker encoder性质, 先思考计划, 先别乱猜解决方案, 基于观察再发散.1/03日周日晚24:00截止, 组会 [公司] 杰哥英文G2P, 去掉语言标记,看效果,多增加及个说话人, 移到春春, 如何预训练后再训春春, 请教下陈峰, 做PPT讨论.12/25日周五晚24:00截止, 准备组会 [公司] 讨论CS文本的合成方案哪一个好, 也搭建评测; 注意什么时候停止探究. 自...

2020-12-24 11:13:43 104

原创 2020-12-23工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki.自发 [学校] 观察voice clone的speaker encoder性质, 先思考计划, 先别乱猜解决方案, 基于观察再发散.1/03日周日晚24:00截止, 组会 [公司] 杰哥英文G2P, 去掉语言标记,看效果,多增加及个说话人, 移到春春, 如何预训练后再训春春, 请教下陈峰, 做PPT讨论.12/25日周五晚24:00截止, 准备组会 [公司] 讨论CS文本的合成方案哪一个好, 也搭建评测; 注意什么时候停止探究. 自...

2020-12-23 10:13:54 85

原创 Voice Clone解Cross-Lingual Voice Transfer的方案想法

0. 说明在和real-time voice clone一样的基础上, 给出2000句中国人说中文(S1, X1)...(Sn, Xn) 正常使用时X1到speaker encoder, 然后结合英文TXT 新思路: 将2000句(S1, X1)...(Sn, Xn)去fine-tune原来的模型, 但是冻结decoder部分的权重, 以及txtencoder部分的权重, 只能够调节speaker encoder的权重/或者平均speaker embedding 先训练到loss最小, 看结果..

2020-12-22 15:11:08 614

原创 2020-12-22工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki.自发 [学校] 观察voice clone的speaker encoder性质, 先思考计划, 先别乱猜解决方案, 基于观察再发散.1/03日周日晚24:00截止, 组会 [公司] 杰哥英文G2P, 去掉语言标记,看效果,多增加及个说话人, 移到春春, 如何预训练后再训春春, 请教下陈峰, 做PPT讨论.12/25日周五晚24:00截止, 准备组会 [公司] 讨论CS文本的合成方案哪一个好, 也搭建评测; 注意什么时候停止探究. 自...

2020-12-22 10:27:14 98 3

原创 Code-Switch文本的合成方案列举

0. 只合成时切分1. 使用Transformer2. 使用Transformer后重训Tacotron3. 训练的时候切分语料并且拼接整合4. encoder rnn的地方语言交换处遗忘门设为0但是decoder的地方就不知道了, 不过应该没问题/或者也可以详细处理一下而且这个方案训练和合成的时候都可以构造一些混语言文本5. 哪一种方案合成CS文本的时候最稳定 + 自然...

2020-12-21 18:00:42 446

原创混语言和情感的语料文本范例: DATASET_1_MIX_EMOTION

0. 说明情感中7种情感每个情感有500句共用平行语句, 1500句自己的混语言中待分析1. 示例Git 地址:https://github.com/ruclion/DATASET_1_MIX_EMOTION

2020-12-21 15:02:39 161

原创 AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文理解

0.Abstract非并行的多对多语音转换以及零语音转换仍然是未开发的领域。诸如对抗性网络（GAN）和条件变量自动编码器（CVAE）之类的深度样式转换算法已被用作该领域的新解决方案。但是，GAN训练是复杂且困难的，并且没有强有力的证据表明其生成的语音具有良好的感知质量。另一方面，CVAE训练很简单，但不具备GAN的分布匹配特性。在本文中，我们提出了一种style transfer scheme，该方案仅涉及具有精心设计的瓶颈的自动编码器。我们正式表明，该方案仅通过对自重构损失进行训练就可以实现...

2020-12-21 11:34:52 628 1

原创 2020-12-21工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki.自发 [学校] 观察voice clone的speaker encoder性质, 先思考计划. 1/03日周日晚24:00截止, 组会 [帮忙] LSTM版本librispeech重新训练, 做get meta. 自发 [帮忙] 整理Maybe的TTS已有东西和修正好的文本, 新一版的TTS的经验. 自发 [公司] 杰哥英文G2P, 去掉语言标记, 多增加及个说话人, 移到春春, 做PPT讨论.12/25日周五晚24:00截止, 准备组..

2020-12-21 10:35:30 92

原创 2020-12-21-平安组会

0. 说明组会的内容主要是排期, 也理解下组里在怎么做.1. 标准中文+英文字母(应用平台2.0)1.1. 特殊情况特殊方案1.2. ASR测试1.3. 人工测试2. 方言TTS3. 中英文TTS

2020-12-21 10:10:37 142

原创 Fantasy Mix-Lingual Tacotron Version 5: NOVAE-Phoneme-HCSI-DBMIX

0. 说明phoneme, 无VAE效果好象没有带VAE的好Git:https://github.com/ruclion/Fantasy_Mix-Lingual_Tacotron_Version_5_NOVAE-Phoneme-HCSI-DBMIX1. 实验结果

2020-12-20 20:20:50 100

原创 Fantasy Mix-Lingual Tacotron Version 7: NOVAE-Phoneme-HCSI-NOLID_DBMIX

0. 说明phoneme后去掉LID, 无VAEGit:https://github.com/ruclion/Fantasy_Mix-Lingual_Tacotron_Version_7_NOVAE-Phoneme-HCSI-NOLID_DBMIX1. 实验结果

2020-12-20 20:18:51 100

原创 Fantasy Mix-Lingual Tacotron Version 6: Google-ZYX-Phoneme-HCSI-NOLID_DBMIX

0. 说明phoneme后去掉LID, 有VAE1. 实验结果

2020-12-20 20:12:58 118

原创 2020-12-20-HCSI组会

李翔音调怎么用的 SMA如何用如何使用情感标签, 和GST的联合使用; 这样使用和one-hot的使用区别语料不均衡的时候如何处理, 普适处理+分类比较loss(focal loss是什么) MIME分模块单独训练的方案, 并且不同label的语料可能使用阶段也不同(语料, 模块结构同时做content的减法), 最终效果呢? sytle content 到底建模了什么信息, 泄露了很多, 加了很大的权重才有用为甚么style有很多平行文本,仍然需要认为的去解耦/冻结做减法存在的不好的

2020-12-20 15:06:51 139

原创 MOS评测实验指导性文字说明

0. 说明记录下这次MOS的评测所给出的文字性描述1. 描述

2020-12-18 16:05:07 202 1

原创 AUTOVC: Zero-Shot Voice Style Transfer with Only Autoencoder Loss 论文代码复现

0. 说明复现Git的代码, 需要确认开源代码中speaker encoder部分的pretrained model能够直接提取vctk所有说话人信息目前同事使用speaker encoder pretrained model提取vctk embedding信息, 训练loss达不到论文写的那么低导致音色最终的迁移不像因此需要确认下pretrained speaker encoder是用什么语料训的...

2020-12-18 14:50:03 982 4

原创 Tacotron的Attention的优化: LSA，GMM和DCA

0. 说明是师弟问了个问题, 在这里记录下吧~问题Hi，大家好，有人尝试过把Tacotron2(Nvidia 开源)中的LSA换成DCA(dynamic convolutional attention, Google2019年提出的)吗？我尝试了之后，发现总是对齐失败.原始论文是这篇，它总结并对比了LSA，GMM和DCA1. 讨论...

2020-12-18 11:37:50 672

原创 2020-12-18工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki.12/18日周五晚24:00截止, 师兄任务 [学校] 观察voice clone的speaker encoder性质, 先思考计划.12/20日周日晚24:00截止, 组会 [帮忙] LSTM版本librispeech重新训练, 做get meta. 12/18日周五晚24:00截止, 自发 [帮忙] 整理Maybe的TTS已有东西和修正好的文本.12/21日周一晚24:00截止, 自发 [公司] 杰哥英文G2P, 看DBMIX代码...

2020-12-18 10:54:25 112

原创平安好医生和智慧教育的AI(语音)技术应用

0. 说明简单的总结吧~1. 人工智能教育1.1. 人工智能课堂语音合成可以应用于学生课前预习、自学，在语文、英语课堂中可以实现中英文标准朗读及带读，提升教学效率1.2. 智能助手一个班级五六十名学生，教师辅导的时候，不能照顾到每一个学生，可以实现中英文针对不同程度的学生因材施教讲解，提高教学效率...

2020-12-18 10:49:30 347

原创 2020-12-17工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki.12/17日周四晚24:00截止, 师兄任务 [学校] 观察voice clone的speaker encoder性质, 先思考计划.12/20日周日晚24:00截止, 组会 [帮忙] LSTM版本librispeech重新训练, 看MFCC, PPG的tmux, 然后接着做get meta. 12/16日周四晚24:00截止, 自发 [帮忙] 整理Maybe的TTS已有东西和修正好的文本.12/21日周一晚24:00截止, 自发 [...

2020-12-17 14:52:39 113

原创 Fantasy Mix-Lingual Tacotron Version 4: Google-ZYX-Phoneme-HCSI-DBMIX

0. 说明Google-ZYX指有VAE Phoneme-HCSI指中文使用实验室G2P和韵律, 英文用KbGit和替换空格 DBMIX指双语/混语语料为标贝买的1. 代码调整1.1. 拷贝之前的项目使用Git:https://github.com/ruclion/Fantasy_Mix-Lingual_Tacotron_Version_2_Google-ZYX项目为:/ceph/home/hujk17/Fantasy_Mix-Lingual_Tacotron_Version_4_..

2020-12-16 11:42:40 614

原创 2020-12-16工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki.12/16日周三晚24:00截止, 师兄任务 [学校] 观察voice clone的speaker encoder性质, 先思考计划.12/20日周日晚24:00截止, 组会 [帮忙] LSTM版本librispeech重新训练, 看MFCC, PPG的tmux, 然后接着做get meta. 12/16日周三晚24:00截止, 自发 [帮忙] 整理Maybe的TTS已有东西和修正好的文本.12/21日周一晚24:00截止, 自发 [...

2020-12-16 10:09:37 105

原创专业实践记录I: 端到端跨语言音色迁移语音合成

0. 说明记录的是2020-11-12到2020-12-15之间的工作1. 工程性1.1.ppgs_extractor封装接口

2020-12-15 10:04:19 1098

原创 2020-12-15工作安排和学习内容

所有任务和DDL[学校] 师兄们发表论文收集到wiki. 12/15日周二晚24:00截止, 自发 [学校] 观察voice clone的speaker encoder性质, 先思考计划. 12/15日周二晚24:00截止, 自发 [学校] 看看这个月的报告什么时候能提交.12/15日周二晚24:00截止 [帮忙] LSTM版本librispeech重新训练. 12/14日周一晚24:00截止 [帮忙] 整理Maybe的TTS已有东西和修正好的文本.12/21日周一晚24:00截止, 自发..

2020-12-15 09:52:51 132 4

原创毕业设计论文进度报告I: 端到端跨语言音色迁移语音合成

0. 说明学院要求定期上报, 正好好好整理下, 相当于博客的一个提纲式索引吧1. 题目端到端跨语言音色迁移语音合成现在和当时开题相比, 多了别的想法:包括当时觉得的基本的结构跨语言, ppg跨语言, 综合的multi-task跨语言多了loss跨语言的思路多了逆向思路: voice clone, autoVC学音色跨语言思路增加混语言的说法, 跨语言只是混语言的第一步, 之后更详细的input representation, code-switch等内容也考虑跨语言合成的

2020-12-14 15:38:00 523

原创 2020-12-14工作安排和学习内容

所有任务和DDL[学校] 研究生论文进度提交, 列提纲->一篇博客总领博客.12/14日周一晚24:00截止 [学校] 师兄们发表论文收集到wiki. 12/15日周二晚24:00截止, 自发 [学校] 观察voice clone的speaker encoder性质, 先思考计划. 12/15日周二晚24:00截止, 自发 [帮忙] LSTM版本librispeech重新训练. 12/14日周一晚24:00截止 [帮忙] 整理Maybe的TTS已有东西和修正好的文本.12/21日周一晚..

2020-12-14 14:56:41 110 4

原创谢磊老师交流-未讨论的问题

0. 说明感谢谢磊老师来了实验室作报告, 也谢谢老师~好多问题和相关的公司的一些问题, 没来得及问, 先放这里吧抱歉目前没时间整理(偷懒...TODO...)1. 照片~可可爱爱兄弟们侵权删啊23333 :)2. 问题们...

2020-12-11 18:58:47 315

原创 2020-12-11工作安排和学习内容

所有任务和DDL[学校] 研究生论文进度提交, 列提纲->一篇博客总领博客. 12/1日周日晚24:00截止 [学校] 师兄们发表论文收集到wiki. 12/13日周末晚24:00截止, 自发 [帮忙] LSTM版本librispeech重新训练. 12/13日周日晚24:00截止, 自发 [帮忙] 整理Maybe的TTS已有东西和修正好的文本.12/13日周日晚24:00截止, 自发 [公司] 中英文G2P的使用和韵律方案收集调研, 结合杰哥, 并上传Git. 12/14日周一中午12.

2020-12-11 18:42:53 103

原创 Tacotron的Attention出现问题的分析

0. 说明思磐问的问题, 但是晚上没有好好的回答(哭/(ㄒoㄒ)/~~), 也借着机会问了廖陈峰博士, 记录下来~1. 原因attention是soft的, 所有的输入序列都过一遍, 很容易出现错误, 事实上真实的attention是单调且连续的自回归模型对attention的要求会更高, 其中一步算错了, 后面基本全错 attention跟生成mel-spectrogram是一起学习的, 增加了学习的难度2. 解决方案每个方面均对应一些论文...

2020-12-10 10:56:48 370

原创 2020-12-10工作安排和学习内容

所有任务和DDL[学校] SLT账号注册. 12/11日周五晚24:00截止 [学校] 研究生论文进度提交. 真实情况+学源总结提交. 12/14日周一晚24:00截止 [学校] 师兄们毕业论文收集到wiki. 12/11日周五晚24:00截止, 自发 [学校] 读谢磊老师论文, 问问题和PPT. 12/10日周四晚24:00截止 [帮忙] LSTM版本librispeech重新训练. 12/9日周三晚24:00截止, 自发 [帮忙] 构思Maybe的TTS修正.12/11日周五晚24:00.

2020-12-10 10:27:20 116

原创谢磊老师论文: A NOVEL CROSS-LINGUAL VOICE CLONING APPROACH WITH A FEW TEXT-FREE SAMPLES

0.ABSTRACT本文提出了一种新颖的跨语言语音克隆利用获得的瓶颈（BN）功能构建框架--来自目标语言的独立于说话者的自动语音识别系统首先，我们使用音频-文本对目标语言的单个说话者的训练文本->BN特征的映射, 称之为韵律模型 (latent prosody model) 然后, 训练多说话人BN特征转->声学特征，在目标语言中, 称之为声学模型 (acoustic model) 最后，声学模型可以根据目标说话者的声音进行微调原始语言的演讲没有相应的内容文本，因为BN功能被..

2020-12-10 10:08:08 216

课堂笔记1.docx

空空如也