自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

qq_28662689的博客

原创 PARALLEL WAVEGAN论文学习

Parallel Wavegan：基于具有多分辨率谱图的生成逆向网络的快速波形生成模型摘要：Parallel WaveGAN是一种无蒸馏的对抗生成网络，快速且占用空间小的波形生成方法。该方法通过联合优化多分辨率谱图和对抗损失函数来训练非自回归WaveNet，可以有效捕获真实语音波形的时频分布。由于我们的方法不需要在常规师生框架中使用密度蒸馏，因此即使使用少量参数，也可以轻松地训练整个模型。特别是，提出的Parallel WaveGAN仅具有1.44 M参数，并且在单个GPU环境下生成24 kHz语音波形的

2020-05-11 17:20:05 3493

原创 melGAN论文学习

MelGAN：用于条件波形合成的生成对抗网络摘要：先前的工作（Donahue等人，2018a; Engel等人，2019a）发现，利用GAN生成连续的原始音频波形具有挑战性。在本论文中，我们表明通过引入一组体系结构更改和简单的训练技术，可以可靠地训练GAN以生成高质量的连续波形。主观评估指标（平均意见得分，或MOS）显示了所提出的方法对于高质量Mel谱图反演的有效性。为了建立所提出技术的通用性...

2020-05-07 17:33:02 2842 3

原创 GE2E论文学习

本文主要记录GE2E的理论知识学习，防止遗忘，方便以后复习。论文地址：https://arxiv.org/abs/1710.10467论文的整体翻译：GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION该文提出了一种新的损失函数，称为广义端到端（GE2E）损失，它使说话人验证模型的训练比我们以前的基于元组的端到端（TE2E）损失函数更有...

2019-12-26 11:14:45 2590 1

原创 merlin主要源码解析（一）

run_merlin.py详解run_merlin.py是Merlin框架的核心脚本，配套（.conf）的参数文件使用，其中包括了时延模型训练，声学模型训练和音频文件的生成等众多的功能，其参数文件中的也众多，没有去读相应的源码很难解析其内部的工作原理和训练机制，本博客也算对merlin的代码做一个记录，方便以后查阅。1、先从1220行的'__main__':开始：既然是配套参数文件使用，第一...

2019-05-22 19:43:00 1772

原创 tacotron2等端到端语音合成的github汇总

1 Tacotron-2https://github.com/Rayhane-mamah/Tacotron-2https://github.com/NVIDIA/tacotron22 韵律预测https://github.com/BoragoCode/AttentionBasedProsodyPrediction3 tacotron1, tacotron2, wavenet和char2...

2019-05-22 19:41:49 2667 1

原创 transformer的pytorch实现（一）

本文主要根据“Attention Is Al You Need”里的提到的transformer来实现的。主要参考了：http://nlp.seas.harvard.edu/2018/04/03/attention.html概述在过去的一年中，根据“Attention Is Al You Need”所提到的transformer已经给很多人留下了深刻的印象。除了在翻译质量方面取得重大进步外，...

2019-05-21 19:59:24 5671 1

原创一些函数解析

numpy.transpose()该函数为矩阵交换维度，列如：矩阵:arr = np.arange(8).reshape((2, 4))'''[[0 1 2 3] [4 5 6 7]]'''arr.transpose((1, 0))'''[[0 4] [1 5] [2 6] [3 7]] '''即对矩阵进行转置，transpose（1， 0， 2）也是交换第一维和第...

2019-05-21 10:00:46 190

原创 tacotron2运行笔记

Tacotron-2:DeepMind的Tacotron-2的Tensorflow实现。本文描述的深度神经网络结构：: Natural TTS synthesis by conditioning Wavenet on MEL spectogram predictionsgithub地址：https://github.com/Rookie-Chenfy/Tacotron-2这个 github...

2019-05-14 15:42:42 6315 22

原创 merlin里的speaker_adaptation模型训练

说明speaker_adaptation模型是在merlin的egs下自带的多个说话人自适应的tts模型直接运行会出现一些错误，主要是01_set_up.sh 需要修改的地方，一些调用的工具包需要自己去merlin/tools下，运行compile_other_speech_tools.sh脚本和compile_htk.sh下载。#------------》引用的工具包地址《《-------...

2019-05-13 17:30:59 395

原创梅尔频率倒谱系数（MFCC）理论整理

主要图形：时域图、频谱图、语谱图https://blog.csdn.net/yongchunaq/article/details/36227961基础参考博客：https://blog.csdn.net/zouxy09/article/details/9156785https://blog.csdn.net/qq_28006327/article/details/59129110主要知识要...

2019-05-13 16:28:49 594

原创 WAV文件格式解析

前提知识准备：https://fanzheng.org/archives/36 声音有三要素：音调、响度和音色，波形是怎么反映这三要素的呢？音调由声波的频率决定，频率越高音调越高。响度由声波的振幅决定，振幅越高响度越大。音色是由波形的“形”决定的。WAV文件格式详解1 概述Waveform Audio File Format（WAVE，又或者是因为WAV后缀而被大众所知的），它采用R...

2019-05-13 16:25:26 737

原创技巧概括

1 jupyter能够调用其他conda虚拟环境jupyter能够调用其他conda虚拟环境2 win10安装Pytorch经验总结https://blog.csdn.net/Sebastien23/article/details/802968993 windows下labelme的安装和使用labelme 是给图像打标签的工具1、安装Anaconda2、进入Anaconda文件夹下...

2019-05-13 15:53:03 156

空空如也

python3.6.9版本的编码方式已经是'utf-8'了，为什么仍然会报SyntaxError: 'ascii' codec can't decode byte 0xe4 in position 5: ordinal not in range(128) 的错误？

2019-12-25

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Rookie羊 CSDN认证博客专家 CSDN认证企业博客

码龄9年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

12: 原创

14万+: 周排名

144万+: 总排名

2万+: 访问

: 等级

405: 积分

12: 粉丝

18: 获赞

28: 评论

101: 收藏

私信

关注

热门文章

分类专栏

最新评论

tacotron2运行笔记
weixin_48677573: python synthesize.py --model='Tacotron-2'时报错tensorflow.python.framework.errors_impl.NotFoundError: Key _CHECKPOINTABLE_OBJECT_GRAPH not found in checkpoint self._traceback = tf_stack.extract_stack()
melGAN论文学习
qq_48662134: 请问这个mel频谱是个图片形式吗？
tacotron2运行笔记
m0_48099709: 请问楼主环境配置中Tensorflow的版本是多少呢？我之前用的是1.14.0，运行时有很多警告
GE2E论文学习
weixin_41672299: 你好，我想请教一下GE2E loss函数可以用于分类识别吗？
transformer的pytorch实现（一）
 Almost∞゛: 数据输入在哪里

最新文章

提示

确定要删除当前文章？

取消删除