自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ruclion的专栏

痴的不是凯旋,而是战斗!

  • 博客(478)
  • 资源 (1)
  • 收藏
  • 关注

原创 毕设论文第三章删去内容

训练音素后验概率谱Tacotron根据不同训练阶段以及不同参数冻结思路,有不同的训练技巧。直接训练方式为忽略语言的差异直接进行训练,如图\ref{fig:Figure-train-1}。\begin{figure*}[htb] \centering \includegraphics[width = 0.38\textwidth]{figures/train-1.JPG} \caption{音素后验概率谱Tacotron直接训练策略} \label{fig:Figure-t...

2021-06-22 19:00:34 466

原创 程序猿冲冲冲~!

2021-06-16 19:04:15 363

原创 好看的图片 I

0. 说明先放这里吧~https://www.bilibili.com/video/BV1p541157Jd?from=search&seid=4530761390439425712

2021-03-25 10:04:55 431

原创 Towards Fine-Grained Prosody Control for Voice Conversion 论文理解

说明歌声音色转换效果太强了https://arxiv.org/pdf/1910.11269.pdf https://zeroqiaoba.github.io/voice-conversion/0. 摘要

2021-03-24 18:04:45 402

原创 ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURAL SPEAKER EMBEDDINGS 论文理解

0. 说明大神们的文章~

2021-03-23 11:45:06 297

原创 2021-3-20组会 Chinese Text Normalization

0. 说明TTS 中前端很重要的工作看上去很简单, 但其实特别特别复杂, 特别麻烦, 特别难 目前如 Crystal, 都是有大约 300 条的规范文件, 通过 Rule 来解决这些问题 那么基于数据的方法, 都有哪些呢, 能不能完全暴力堆数据, 通过覆盖和训练来完成呢? 而且这个貌似是一个一劳永逸的过程, 并不像 TTS 每个人都有特点, 需要训练自己的 TTS 的难点一样1. 问题背景...

2021-03-20 15:44:08 440

原创 2021-3-20组会 无监督训练下的音频分离 (音源分离) Unsupervised Audio Source Separation Using Generative Priors

0. 说明一片具体论文的综述

2021-03-20 14:07:33 1027

原创 kaldi 工具提取较为准确的 PPG

0. 说明希望通过 Kaldi 可以提取出足够准确, 能够商用的 PPG 提取器~TODO

2021-03-20 07:47:52 467 1

原创 Tacotron 的基于 Guided Attention 的实现

0. 说明和峰哥在讨论 DurING 的先 Force Alignment, 再 Attention 的机制优点时, 峰哥 (我也赞同) 说其实 Guided Attention 训练的时候差不多 只不过 Guided Attention 通过规则, 比较泛化的有了 Force Alignment 的味道, 所以也不能太过 "相信" (当然也要相信) DurING 的对齐思想 不过在 Inference 阶段, 确实Guided Attention 就没有显式帮上忙了, 但是 DurING 的机制可

2021-03-20 07:07:59 415

原创 Tacotron 的基于 Forward Attention 的实现

0. 说明Tacotron 的基于 Forward Attention 的实现 (取自别人)感谢 前端小陶 的讨论~在这个 Git 可能会添加:https://github.com/thuhcsi/tacotron/blob/master/model/attention.py

2021-03-20 07:03:02 242

原创 Tacotron 的基于 GMM Attention 的实现

0. 说明Tacotron 的基于 GMM Attention 的实现 (取自别人)感谢 qq_43377742 的讨论~

2021-03-20 06:50:15 680

原创 中文拼音转换成CMU的音素工具

0. 说明感谢masterwei001~目的: 使用工具, 把中文拼音转换成CMU的音素格式 示例:请帮我%把%温度%调整到%三十度$|Q IY3 NG3 B AE1 NG1 W AO2 % B AA3 % W AH1 N1 D UW4 % T IY2 AW2 JH AH3 NG3 D AW4 % S AE1 N1 SH IY2 D UW41. 工具...

2021-03-20 06:29:03 1564 1

原创 LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech 论文理解

0. 说明VCTK 只有 40 个小时, 不够用. 所以需要读一下 LibriTTS

2021-03-16 10:05:11 2131

原创 DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS 论文理解

-1. 说明DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESISDURIAN:告诉网络持续时间的多模态合成比 Tacotron 晚一些的 Paper, 应该是 更容易对齐的好, 希望训的也快0. 摘要在本文中,我们提出了一种通用且鲁棒的多模态合成系统,该系统可以产生很高的 自然语言和面部表情同时出现。该系统的关键部分是持续时间 知情注意力网络(DurIAN),一种自回归模型,其中 已经显性的从持续时间模

2021-03-15 12:38:13 496

原创 Sequence to Sequence Learning with Neural Networks 论文理解

0. 说明序列到序列映射 数据学习建模, 使用深度神经网络https://ai.deepshare.net/detail/p_5d54e025bab7d_EUVqzfFX/630 篇精度论文中的一篇, 好好理解下, 为甚么 LSTM 的结构, 能够建模语言/语音模型1.Abstract...

2021-03-15 12:19:00 264

原创 2021-3-13组会 Overview of Voice Conversion

0. 说明一些精彩的 VC 展示1. 方法分类1.1. 基于信号的PSOLA (PItch Synchronous Overlap and Add) HNM1.2. 基于模型的1.3. WaveNet Vocoder1.4. Recent Progress on Neural VocoderWaveGAN MelGAN NSF WavGlow

2021-03-13 15:58:24 209 1

原创 专业实践最终总结: 端到端跨语言 TTS

1. 实践目的及意义1.1. 背景意义Code-switch is a common phenomenon in multilingual society around the world [1]. The latest speech synthesis can generate monolingual speech with high identifiable and naturalness [2][3][4][5]. However, they cannot fully handel code-

2021-03-12 07:24:43 706

原创 专业实践记录V: 补 - 一种基于PPG一致性的最优映射跨语言音色转换方法

0. 说明记录的是2020-10-10到2020-11-10之间的工作主要描述了一种基于PPG一致性的最优映射跨语言音色转换方法的专利1. 实践任务情景简介由于全球化的兴起,在社交媒体文本、非正式信息和语音导航中,文本或语音出现不同语言内容的交替。在人机口语对话系统中,合成这样的语句时,声音要一致、发音准确并自然,但实际上单说话人双语语料库不易获取。使用跨语言音色转换技术是解决此类任务的重要方法2. 问题描述传统的跨语言音色转换主要存在以下几个方面的问题:1)传统的方法没有有效的、彻

2021-03-12 07:07:50 400

原创 专业实践记录IIII: 端到端跨语言音色迁移语音合成论文 - 三步走

0. 说明记录的是2020-2-15到2021-3-8之间的工作主要是跨语言音色迁移的三步走中:Pre-trained Ear Speech Self-trained Ear Speech的系统搭建和实验结果同时也给Tacotron 找到/实现了更好的一版 Pytorch 代码1. Pre-trained Ear Speech详细过程见:https://blog.csdn.net/u013625492/article/details/1144332291.1. ..

2021-03-12 06:45:38 549

原创 基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 跨语言实验观察

0. 说明把 LJSpeech 的作为 reference, 以及 DataBaker EN, 还有 VCTK 的首先仍然用 55k 的那个 ckpt 其他的设置参看张阳的 Speaker Embedding 版本:https://blog.csdn.net/u013625492/article/details/1146563201.选取 Reference Speech1.1. 选取音频前 6 个是标贝双语, 分别是 2 个中, 2 个英, 2 个混合 然后两个是 LJSpe..

2021-03-11 14:15:58 311

原创 基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-GE2E-EarSpeech 不跨语言实验观察

0. 说明训练的非常好 进行实验的设置和张阳 Speaker Embedding 的一样:https://blog.csdn.net/u013625492/article/details/114640032 代码逻辑从:/ceph/home/hujk17/Tuned-GE2E-EarSpeech/FaPig_GE2E_synthesizer.py 开始1.选取 Reference Speech使用里面的 speaker embedding 的路径, 然后替换为 GE2E 的路径, 其...

2021-03-11 11:57:28 229

原创 基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 跨语言实验观察

0. 说明把 LJSpeech 的作为 reference, 以及 DataBaker EN 的首先仍然用 7k 的那个 ckpt 虽然目前训练到了 126k, 但是保持和之前不跨语言的对比, 所以不用 (单独开一篇博客, 记录实验观察 (二))1.选取 Reference Speech...

2021-03-11 11:15:17 149

原创 基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 不跨语言实验观察

0. 说明训练的还可以, 跑一下 Inference 张阳的 ASV 我还不会用, 所以只能从已有的每个人的 Speaker Embedding 中选取1. 选取 Reference Speech/ceph/home/hujk17/npy-EarSpeech-HCSI-Data/dereverb_npy/SSB0005/mel-SSB00050119-mel.npy|/ceph/home/hujk17/npy-EarSpeech-HCSI-Data/dereverb_npy/SSB0005/sp

2021-03-10 17:04:43 282 1

原创 基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 时 ASV-T-SNE

0. 说明GE2E 的提取在:https://blog.csdn.net/u013625492/article/details/114433738, 第三章张阳的目前是他直接帮忙提取的现在分别画出这些的 T-SNE 图1. 张阳的 Speaker Embedding

2021-03-10 15:17:00 156

原创 FaPig-Tacotron 模型结构和细节

0. 说明

2021-03-09 11:04:50 153

原创 基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第二步 Tuned-EarSpeech 搭建

0. 说明用 M2VoC 的数据训练 可以加上 databaker, thucoss 并且可以在RTVC-7 Voice Cloning Model 的 Tacotron Pretrained Model 上忽略 embedding layer, 进行 Tune1.Git Clonegit clonehttps://github.com/ruclion/Pretrained-EarSpeech.gitTuned-EarSpeech -b81428b30a486314577bfbd59...

2021-03-06 16:48:14 263

原创 2021-3-6组会 Multi-Scale Emotion TTS 分享

1. Sentence-LevelEmotion EmbeddingGST ...2. Phoneme-LevelEmotion Embedding谢磊老师的论文, ...3.Multi-Scale Emotion Embedding句子, 词, 字, 多个级别, 但是文章没有 Demo4. 翔哥的想法句子级别力度和字级别力度分别能够控制, 更加接近了 TTS-Word 的愿景4.1. 总体框架本质上是显性的句子级别的和字级别的序列都提供给 Tacotron 可以当...

2021-03-06 15:58:48 385 2

原创 2021-3-6组会 图神经网络在 TTS 中的应用

1. GNN 概念1.1. 图神经网络概念G = {V, E}, 有向, 无向, 加权, 非加权, 同构, 异构(不同结构/意义的边/点) 为什么要用? 数据有非欧几里的距离的信息含义 欧几里得距离: 比如识别猫图片的 CNN, 就是可以通过简单的距离就可以描述(不需要建边) 图神经网络: 学习一个包含邻居节点信息的状态特征(state embedding), 表征邻居的就是边, 有了边, 也就升级成为了图1.2. GNN具体结构引入迭代函数 F, (最终可以让图稳定状态, 也可以不稳定

2021-03-06 14:22:18 305

原创 2021-3-6 研究生学习情况

0. 说明只要有前赴后继的精神, 革命就一定能成功-- 赵世炎 (剧中)1. 学习情况1.【姓名】:户建坤2.【学号】:20172109043.【自我评价】:科研工作有些难度, 精力消耗较大,灵活的选取了看如"共产党100周年献礼"系列电视剧节目, 来达到理论和意识积极不落后的努力目标. 但同时, 我确实认为自觉主动地挤时间学习党相关的知识还不够,特别是党的实践理论, 如自我反思, 开会讨论等手段, 使用不够娴熟, 下阶段要努力应用好这些宝贵的已然验证过成功的理论.4.【个人自主

2021-03-06 08:31:09 290 4

原创 基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 应用于 M2VoC 比赛

http://challenge.ai.iqiyi.com/detail?raceId=5fb2688224954e0b48431fe0

2021-03-06 08:22:32 141

原创 基于 RTVC-7 Voice Cloning Model 的 Cross-Lingual TTS 的三步走: 第一步 Pretrained-EarSpeech 搭建

0. 说明跑通 Git 上的 RealTime VoiceClone1. Git Clone

2021-03-06 07:04:54 372

原创 寒假PyTorch工具第十五天

课程记录课程代码略作业略

2021-03-01 16:06:23 116

原创 寒假PyTorch工具第十四天

课程记录gpu的使用和PyTorch 常见报错课程代码参看:https://blog.csdn.net/huxw_magus/article/details/108024494https://blog.csdn.net/huxw_magus/article/details/108061775感谢~# -*- coding: utf-8 -*-import osimport numpy as npimport torch# =================...

2021-03-01 15:07:55 142 1

原创 寒假PyTorch工具第十三天

课程记录模型存储加载 ckpt 和 finetune 三大类操作课程代码感谢作者https://blog.csdn.net/huxw_magus/article/details/108018649https://blog.csdn.net/huxw_magus/article/details/1080195201. pretrain + 一样 lr 都训练# ============================ step 2/5 模型 =============..

2021-03-01 14:31:52 336

原创 寒假PyTorch工具第十二天

课程记录四个nomalization课程代码无作业略

2021-03-01 13:45:32 73

原创 寒假PyTorch工具第十一天

课程记录L1, L2正则化和Dropout正则化课程代码参考:https://blog.csdn.net/weixin_43673376/article/details/107527831, 谢谢~import torchimport torch.nn as nnimport matplotlib.pyplot as pltfrom tools import set_seedfrom torch.utils.tensorboard import SummaryWrit...

2021-03-01 12:48:08 143 1

原创 寒假PyTorch工具第十天

课程记录hook函数和CAM分析课程代码主要参考:https://blog.csdn.net/huxw_magus/article/details/107975517"""@brief : pytorch的hook函数"""import torchimport torch.nn as nnfrom tools.common_tools2 import set_seedset_seed(1)# ---------------------------...

2021-03-01 12:21:28 128 2

原创 寒假PyTorch工具第九天

课程记录从学习率机制到tensorboard课程代码无明天补吧~

2021-02-28 23:13:11 168

原创 寒假PyTorch工具第八天

课程记录从optimizer概念到各种optim课程代码略作业1.优化器的作用是管理并更新参数组,请构建一个SGD优化器,通过add_param_group方法添加三组参数,三组参数的学习率分别为 0.01, 0.02, 0.03, momentum分别为0.9, 0.8, 0.7,构建好之后,并打印优化器中的param_groups属性中的每一个元素的key和value(提示:param_groups是list,其每一个元素是一个字典)1. 控制 ...

2021-02-28 19:57:26 90

原创 寒假PyTorch工具第七天

课程记录从权值初始化到各种loss课程代码无作业2.损失函数的reduction有三种模式,它们的作用分别是什么?当inputs和target及weight分别如以下参数时,reduction=’mean’模式时,loss是如何计算得到的?inputs = torch.tensor([[1, 2], [1, 3], [1, 3]], dtype=torch.float)target = torch.tensor([0, 1, 1], dtyp...

2021-02-28 19:14:10 83

课堂笔记1.docx

李宏毅老师机器学习的笔记,目详细介绍为:https://www.bilibili.com/video/av35932863?p=2

2019-08-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除