ruclion-CSDN博客

原创毕设论文第三章删去内容

训练音素后验概率谱Tacotron根据不同训练阶段以及不同参数冻结思路，有不同的训练技巧。直接训练方式为忽略语言的差异直接进行训练，如图\ref{fig:Figure-train-1}。\begin{figure*}[htb] \centering \includegraphics[width = 0.38\textwidth]{figures/train-1.JPG} \caption{音素后验概率谱Tacotron直接训练策略} \label{fig:Figure-t...

2021-06-22 19:00:34 466

原创程序猿冲冲冲~！

2021-06-16 19:04:15 363

原创好看的图片 I

0. 说明先放这里吧~https://www.bilibili.com/video/BV1p541157Jd?from=search&seid=4530761390439425712

2021-03-25 10:04:55 431

原创 Towards Fine-Grained Prosody Control for Voice Conversion 论文理解

说明歌声音色转换效果太强了https://arxiv.org/pdf/1910.11269.pdf https://zeroqiaoba.github.io/voice-conversion/0. 摘要

2021-03-24 18:04:45 402

原创 ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS 论文理解

0. 说明大神们的文章~

2021-03-23 11:45:06 297

原创 2021-3-20组会 Chinese Text Normalization

0. 说明TTS 中前端很重要的工作看上去很简单, 但其实特别特别复杂, 特别麻烦, 特别难目前如 Crystal, 都是有大约 300 条的规范文件, 通过 Rule 来解决这些问题那么基于数据的方法, 都有哪些呢, 能不能完全暴力堆数据, 通过覆盖和训练来完成呢? 而且这个貌似是一个一劳永逸的过程, 并不像 TTS 每个人都有特点, 需要训练自己的 TTS 的难点一样1. 问题背景...

2021-03-20 15:44:08 440

原创 2021-3-20组会无监督训练下的音频分离 (音源分离) Unsupervised Audio Source Separation Using Generative Priors

0. 说明一片具体论文的综述

2021-03-20 14:07:33 1027

原创 kaldi 工具提取较为准确的 PPG

0. 说明希望通过 Kaldi 可以提取出足够准确, 能够商用的 PPG 提取器~TODO

2021-03-20 07:47:52 467 1

原创 Tacotron 的基于 Guided Attention 的实现

0. 说明和峰哥在讨论 DurING 的先 Force Alignment, 再 Attention 的机制优点时, 峰哥 (我也赞同) 说其实 Guided Attention 训练的时候差不多只不过 Guided Attention 通过规则, 比较泛化的有了 Force Alignment 的味道, 所以也不能太过 "相信" (当然也要相信) DurING 的对齐思想不过在 Inference 阶段, 确实Guided Attention 就没有显式帮上忙了, 但是 DurING 的机制可

2021-03-20 07:07:59 415

原创 Tacotron 的基于 Forward Attention 的实现

0. 说明Tacotron 的基于 Forward Attention 的实现 (取自别人)感谢前端小陶的讨论~在这个 Git 可能会添加:https://github.com/thuhcsi/tacotron/blob/master/model/attention.py

2021-03-20 07:03:02 242

原创 Tacotron 的基于 GMM Attention 的实现

0. 说明Tacotron 的基于 GMM Attention 的实现 (取自别人)感谢 qq_43377742 的讨论~

2021-03-20 06:50:15 680

原创中文拼音转换成CMU的音素工具

0. 说明感谢masterwei001~目的: 使用工具, 把中文拼音转换成CMU的音素格式示例:请帮我%把%温度%调整到%三十度$|Q IY3 NG3 B AE1 NG1 W AO2 % B AA3 % W AH1 N1 D UW4 % T IY2 AW2 JH AH3 NG3 D AW4 % S AE1 N1 SH IY2 D UW41. 工具...

2021-03-20 06:29:03 1564 1

原创 LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech 论文理解

0. 说明VCTK 只有 40 个小时, 不够用. 所以需要读一下 LibriTTS

2021-03-16 10:05:11 2131

原创 DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS 论文理解

-1. 说明DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESISDURIAN：告诉网络持续时间的多模态合成比 Tacotron 晚一些的 Paper, 应该是更容易对齐的好, 希望训的也快0. 摘要在本文中，我们提出了一种通用且鲁棒的多模态合成系统，该系统可以产生很高的自然语言和面部表情同时出现。该系统的关键部分是持续时间知情注意力网络（DurIAN），一种自回归模型，其中已经显性的从持续时间模

2021-03-15 12:38:13 496

原创 Sequence to Sequence Learning with Neural Networks 论文理解

0. 说明序列到序列映射数据学习建模, 使用深度神经网络https://ai.deepshare.net/detail/p_5d54e025bab7d_EUVqzfFX/630 篇精度论文中的一篇, 好好理解下, 为甚么 LSTM 的结构, 能够建模语言/语音模型1.Abstract...

2021-03-15 12:19:00 264

原创 2021-3-13组会 Overview of Voice Conversion

0. 说明一些精彩的 VC 展示1. 方法分类1.1. 基于信号的PSOLA (PItch Synchronous Overlap and Add) HNM1.2. 基于模型的1.3. WaveNet Vocoder1.4. Recent Progress on Neural VocoderWaveGAN MelGAN NSF WavGlow

2021-03-13 15:58:24 209 1

原创专业实践最终总结: 端到端跨语言 TTS

1. 实践目的及意义1.1. 背景意义Code-switch is a common phenomenon in multilingual society around the world [1]. The latest speech synthesis can generate monolingual speech with high identifiable and naturalness [2][3][4][5]. However, they cannot fully handel code-

2021-03-12 07:24:43 706

原创专业实践记录V: 补 - 一种基于PPG一致性的最优映射跨语言音色转换方法

0. 说明记录的是2020-10-10到2020-11-10之间的工作主要描述了一种基于PPG一致性的最优映射跨语言音色转换方法的专利1. 实践任务情景简介由于全球化的兴起，在社交媒体文本、非正式信息和语音导航中，文本或语音出现不同语言内容的交替。在人机口语对话系统中，合成这样的语句时，声音要一致、发音准确并自然，但实际上单说话人双语语料库不易获取。使用跨语言音色转换技术是解决此类任务的重要方法2. 问题描述传统的跨语言音色转换主要存在以下几个方面的问题：1）传统的方法没有有效的、彻

2021-03-12 07:07:50 400

原创专业实践记录IIII: 端到端跨语言音色迁移语音合成论文 - 三步走

0. 说明记录的是2020-2-15到2021-3-8之间的工作主要是跨语言音色迁移的三步走中:Pre-trained Ear Speech Self-trained Ear Speech的系统搭建和实验结果同时也给Tacotron 找到/实现了更好的一版 Pytorch 代码1. Pre-trained Ear Speech详细过程见:https://blog.csdn.net/u013625492/article/details/1144332291.1. ..

2021-03-12 06:45:38 549

原创基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 跨语言实验观察

0. 说明把 LJSpeech 的作为 reference, 以及 DataBaker EN, 还有 VCTK 的首先仍然用 55k 的那个 ckpt 其他的设置参看张阳的 Speaker Embedding 版本:https://blog.csdn.net/u013625492/article/details/1146563201.选取 Reference Speech1.1. 选取音频前 6 个是标贝双语, 分别是 2 个中, 2 个英, 2 个混合然后两个是 LJSpe..

2021-03-11 14:15:58 311

原创基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 不跨语言实验观察

0. 说明训练的非常好进行实验的设置和张阳 Speaker Embedding 的一样:https://blog.csdn.net/u013625492/article/details/114640032 代码逻辑从:/ceph/home/hujk17/Tuned-GE2E-EarSpeech/FaPig_GE2E_synthesizer.py 开始1.选取 Reference Speech使用里面的 speaker embedding 的路径, 然后替换为 GE2E 的路径, 其...

2021-03-11 11:57:28 229

原创基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 跨语言实验观察

0. 说明把 LJSpeech 的作为 reference, 以及 DataBaker EN 的首先仍然用 7k 的那个 ckpt 虽然目前训练到了 126k, 但是保持和之前不跨语言的对比, 所以不用 (单独开一篇博客, 记录实验观察 (二))1.选取 Reference Speech...

2021-03-11 11:15:17 149

原创基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 不跨语言实验观察

0. 说明训练的还可以, 跑一下 Inference 张阳的 ASV 我还不会用, 所以只能从已有的每个人的 Speaker Embedding 中选取1. 选取 Reference Speech/ceph/home/hujk17/npy-EarSpeech-HCSI-Data/dereverb_npy/SSB0005/mel-SSB00050119-mel.npy|/ceph/home/hujk17/npy-EarSpeech-HCSI-Data/dereverb_npy/SSB0005/sp

2021-03-10 17:04:43 282 1

原创基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 时 ASV-T-SNE

0. 说明GE2E 的提取在:https://blog.csdn.net/u013625492/article/details/114433738, 第三章张阳的目前是他直接帮忙提取的现在分别画出这些的 T-SNE 图1. 张阳的 Speaker Embedding

2021-03-10 15:17:00 156

原创 FaPig-Tacotron 模型结构和细节

0. 说明

2021-03-09 11:04:50 153

原创基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 搭建

0. 说明用 M2VoC 的数据训练可以加上 databaker, thucoss 并且可以在RTVC-7 Voice Cloning Model 的 Tacotron Pretrained Model 上忽略 embedding layer, 进行 Tune1.Git Clonegit clonehttps://github.com/ruclion/Pretrained-EarSpeech.gitTuned-EarSpeech -b81428b30a486314577bfbd59...

2021-03-06 16:48:14 263

原创 2021-3-6组会 Multi-Scale Emotion TTS 分享

1. Sentence-LevelEmotion EmbeddingGST ...2. Phoneme-LevelEmotion Embedding谢磊老师的论文, ...3.Multi-Scale Emotion Embedding句子, 词, 字, 多个级别, 但是文章没有 Demo4. 翔哥的想法句子级别力度和字级别力度分别能够控制, 更加接近了 TTS-Word 的愿景4.1. 总体框架本质上是显性的句子级别的和字级别的序列都提供给 Tacotron 可以当...

2021-03-06 15:58:48 385 2

原创 2021-3-6组会图神经网络在 TTS 中的应用

1. GNN 概念1.1. 图神经网络概念G = {V, E}, 有向, 无向, 加权, 非加权, 同构, 异构(不同结构/意义的边/点) 为什么要用? 数据有非欧几里的距离的信息含义欧几里得距离: 比如识别猫图片的 CNN, 就是可以通过简单的距离就可以描述(不需要建边) 图神经网络: 学习一个包含邻居节点信息的状态特征(state embedding), 表征邻居的就是边, 有了边, 也就升级成为了图1.2. GNN具体结构引入迭代函数 F, (最终可以让图稳定状态, 也可以不稳定

2021-03-06 14:22:18 305

原创 2021-3-6 研究生学习情况

0. 说明只要有前赴后继的精神, 革命就一定能成功-- 赵世炎 (剧中)1. 学习情况1.【姓名】：户建坤2.【学号】：20172109043.【自我评价】：科研工作有些难度, 精力消耗较大，灵活的选取了看如"共产党100周年献礼"系列电视剧节目, 来达到理论和意识积极不落后的努力目标. 但同时, 我确实认为自觉主动地挤时间学习党相关的知识还不够，特别是党的实践理论, 如自我反思, 开会讨论等手段, 使用不够娴熟, 下阶段要努力应用好这些宝贵的已然验证过成功的理论.4.【个人自主

2021-03-06 08:31:09 290 4

原创基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 应用于 M2VoC 比赛

http://challenge.ai.iqiyi.com/detail?raceId=5fb2688224954e0b48431fe0

2021-03-06 08:22:32 141

原创基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 搭建

0. 说明跑通 Git 上的 RealTime VoiceClone1. Git Clone

2021-03-06 07:04:54 372

原创寒假PyTorch工具第十五天

课程记录课程代码略作业略

2021-03-01 16:06:23 116

原创寒假PyTorch工具第十四天

课程记录gpu的使用和PyTorch 常见报错课程代码参看:https://blog.csdn.net/huxw_magus/article/details/108024494https://blog.csdn.net/huxw_magus/article/details/108061775感谢~# -*- coding: utf-8 -*-import osimport numpy as npimport torch# =================...

2021-03-01 15:07:55 142 1

原创寒假PyTorch工具第十三天

课程记录模型存储加载 ckpt 和 finetune 三大类操作课程代码感谢作者https://blog.csdn.net/huxw_magus/article/details/108018649https://blog.csdn.net/huxw_magus/article/details/1080195201. pretrain + 一样 lr 都训练# ============================ step 2/5 模型 =============..

2021-03-01 14:31:52 336

原创寒假PyTorch工具第十二天

课程记录四个nomalization课程代码无作业略

2021-03-01 13:45:32 73

原创寒假PyTorch工具第十一天

课程记录L1, L2正则化和Dropout正则化课程代码参考:https://blog.csdn.net/weixin_43673376/article/details/107527831, 谢谢~import torchimport torch.nn as nnimport matplotlib.pyplot as pltfrom tools import set_seedfrom torch.utils.tensorboard import SummaryWrit...

2021-03-01 12:48:08 143 1

原创寒假PyTorch工具第十天

课程记录hook函数和CAM分析课程代码主要参考:https://blog.csdn.net/huxw_magus/article/details/107975517"""@brief : pytorch的hook函数"""import torchimport torch.nn as nnfrom tools.common_tools2 import set_seedset_seed(1)# ---------------------------...

2021-03-01 12:21:28 128 2

原创寒假PyTorch工具第九天

课程记录从学习率机制到tensorboard课程代码无明天补吧~

2021-02-28 23:13:11 168

原创寒假PyTorch工具第八天

课程记录从optimizer概念到各种optim课程代码略作业1.优化器的作用是管理并更新参数组，请构建一个SGD优化器，通过add_param_group方法添加三组参数，三组参数的学习率分别为 0.01， 0.02， 0.03， momentum分别为0.9, 0.8, 0.7，构建好之后，并打印优化器中的param_groups属性中的每一个元素的key和value（提示：param_groups是list，其每一个元素是一个字典）1. 控制 ...

2021-02-28 19:57:26 90

原创寒假PyTorch工具第七天

课程记录从权值初始化到各种loss课程代码无作业2.损失函数的reduction有三种模式，它们的作用分别是什么？当inputs和target及weight分别如以下参数时，reduction=’mean’模式时，loss是如何计算得到的？inputs = torch.tensor([[1, 2], [1, 3], [1, 3]], dtype=torch.float)target = torch.tensor([0, 1, 1], dtyp...

2021-02-28 19:14:10 83

课堂笔记1.docx

空空如也