自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 问答 (1)
  • 收藏
  • 关注

原创 PARALLEL WAVEGAN论文学习

Parallel Wavegan:基于具有多分辨率谱图的生成逆向网络的快速波形生成模型摘要:Parallel WaveGAN是一种无蒸馏的对抗生成网络,快速且占用空间小的波形生成方法。该方法通过联合优化多分辨率谱图和对抗损失函数来训练非自回归WaveNet,可以有效捕获真实语音波形的时频分布。由于我们的方法不需要在常规师生框架中使用密度蒸馏,因此即使使用少量参数,也可以轻松地训练整个模型。特别是,提出的Parallel WaveGAN仅具有1.44 M参数,并且在单个GPU环境下生成24 kHz语音波形的

2020-05-11 17:20:05 3493

原创 melGAN论文学习

MelGAN:用于条件波形合成的生成对抗网络摘要:先前的工作(Donahue等人,2018a; Engel等人,2019a)发现,利用GAN生成连续的原始音频波形具有挑战性。在本论文中,我们表明通过引入一组体系结构更改和简单的训练技术,可以可靠地训练GAN以生成高质量的连续波形。主观评估指标(平均意见得分,或MOS)显示了所提出的方法对于高质量Mel谱图反演的有效性。为了建立所提出技术的通用性...

2020-05-07 17:33:02 2842 3

原创 GE2E论文学习

本文主要记录GE2E的理论知识学习,防止遗忘,方便以后复习。论文地址:https://arxiv.org/abs/1710.10467论文的整体翻译:GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION该文提出了一种新的损失函数,称为广义端到端(GE2E)损失,它使说话人验证模型的训练比我们以前的基于元组的端到端(TE2E)损失函数更有...

2019-12-26 11:14:45 2590 1

原创 merlin主要源码解析(一)

run_merlin.py详解run_merlin.py是Merlin框架的核心脚本,配套(.conf)的参数文件使用,其中包括了时延模型训练,声学模型训练和音频文件的生成等众多的功能,其参数文件中的也众多,没有去读相应的源码很难解析其内部的工作原理和训练机制,本博客也算对merlin的代码做一个记录,方便以后查阅。1、先从1220行的'__main__':开始:既然是配套参数文件使用,第一...

2019-05-22 19:43:00 1772

原创 tacotron2等端到端语音合成的github汇总

1 Tacotron-2https://github.com/Rayhane-mamah/Tacotron-2https://github.com/NVIDIA/tacotron22 韵律预测https://github.com/BoragoCode/AttentionBasedProsodyPrediction3 tacotron1, tacotron2, wavenet和char2...

2019-05-22 19:41:49 2667 1

原创 transformer的pytorch实现(一)

本文主要根据“Attention Is Al You Need”里的提到的transformer来实现的。主要参考了:http://nlp.seas.harvard.edu/2018/04/03/attention.html概述在过去的一年中,根据“Attention Is Al You Need”所提到的transformer已经给很多人留下了深刻的印象。除了在翻译质量方面取得重大进步外,...

2019-05-21 19:59:24 5671 1

原创 一些函数解析

numpy.transpose()该函数为矩阵交换维度,列如:矩阵:arr = np.arange(8).reshape((2, 4))'''[[0 1 2 3] [4 5 6 7]]'''arr.transpose((1, 0))'''[[0 4] [1 5] [2 6] [3 7]] '''即对矩阵进行转置,transpose(1, 0, 2)也是交换第一维和第...

2019-05-21 10:00:46 190

原创 tacotron2运行笔记

Tacotron-2:DeepMind的Tacotron-2的Tensorflow实现。 本文描述的深度神经网络结构:: Natural TTS synthesis by conditioning Wavenet on MEL spectogram predictionsgithub地址:https://github.com/Rookie-Chenfy/Tacotron-2这个 github...

2019-05-14 15:42:42 6315 22

原创 merlin里的speaker_adaptation模型训练

说明speaker_adaptation模型是在merlin的egs下自带的多个说话人自适应的tts模型直接运行会出现一些错误,主要是01_set_up.sh 需要修改的地方,一些调用的工具包需要自己去merlin/tools下,运行compile_other_speech_tools.sh脚本和compile_htk.sh下载。#------------》引用的工具包地址《《-------...

2019-05-13 17:30:59 395

原创 梅尔频率倒谱系数(MFCC)理论整理

主要图形:时域图、频谱图、语谱图https://blog.csdn.net/yongchunaq/article/details/36227961基础参考博客:https://blog.csdn.net/zouxy09/article/details/9156785https://blog.csdn.net/qq_28006327/article/details/59129110主要知识要...

2019-05-13 16:28:49 594

原创 WAV文件格式解析

前提知识准备:https://fanzheng.org/archives/36 声音有三要素:音调、响度和音色,波形是怎么反映这三要素的呢?音调由声波的频率决定,频率越高音调越高。响度由声波的振幅决定,振幅越高响度越大。音色是由波形的“形”决定的。WAV文件格式详解1 概述Waveform Audio File Format(WAVE,又或者是因为WAV后缀而被大众所知的),它采用R...

2019-05-13 16:25:26 737

原创 技巧概括

1 jupyter能够调用其他conda虚拟环境jupyter能够调用其他conda虚拟环境2 win10安装Pytorch经验总结https://blog.csdn.net/Sebastien23/article/details/802968993 windows下labelme的安装和使用labelme 是给图像打标签的工具1、安装Anaconda2、进入Anaconda文件夹下...

2019-05-13 15:53:03 156

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除