- 博客(5)
- 收藏
- 关注
翻译 FAST AND HIGH-QUALITY SINGING VOICE SYNTHESIS SYSTEM BASED ON CONVOLUTIONAL NEURAL NETWORKS
摘要 本文介绍了基于卷积神经网络(CNN)的歌声合成。当前提出的基于深度神经网络(DNN)的唱歌声音合成系统,并且改善合成唱歌声音的自然性。由于歌声代表着丰富的表达形式,因此需要一种强大的技术来准确地对它们进行建模。 在提出的技术中,歌唱声音的长期依赖性由CNN建模。为每个包含长期帧的片段生成一个声学特征序列,并且无需参数生成算法即可获得自然轨迹。 此外,提出了一种计算复杂度降低技术,该技术根据乐谱特征的类型以不同的时间单位驱动DNN。 实验结果表明,该方法能够比传统方法更快地合成自然的歌声。 引言 深度神
2021-04-06 17:49:52
358
转载 学习笔记之attention
参考 一文看懂 Attention(本质原理+3大优点+5大类型) 完全解析RNN, Seq2Seq, Attention注意力机制 1、Attention 的本质是什么 Attention(注意力)机制如果浅层的理解,跟他的名字非常匹配。他的核心逻辑就是「从关注全部到关注重点」。 1-1 Attention 的3大优点 参数少:模型复杂度跟 CNN、RNN 相比,复杂度更小,参数也更少。所以对算力的要求也就更小。 速度快:Attention 解决了 RNN 不能并行计算的问题。Attention机制每一步
2021-03-21 20:10:00
212
转载 知识点学习之LPCNet
参考文章 语音合成(speech synthesis)方向三:声码器lpcnet系列 一、什么是LPCNet 目前,声码器大致可以分为基于相位重构的声码器和基于神经网络的声码器。基于相位重构的声码器主要因为TTS使用的声学特征(mel特征等等)已经损失相位特征,因此使用算法来推算相位特征,并重构语音波形。基于神经网络的声码器则是直接把声学特征和语音波形做 mapping,因此合成的音质更高。目前,比较流行的神经网络声码器主要包括wavenet、wavernn、melgan、waveglow、fastspee
2021-03-13 15:44:55
2627
1
转载 语音特征学习之声学谱系数
相关参考资料: 从Mel谱预测lpc系数 语音合成中的Mel谱和MFCC谱无区别 语音特征小结 幅度谱、相位谱、能量谱等语音信号处理中的基础知识 傅里叶变换 相位谱 幅度谱 语音信号线性预测(LPC)分析 一、MFCC MFCC,即梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients)。是一种非线性映射,根据人耳对不同频率的声波有不同的听觉敏感度进行映射的。 计算流程图 音频时域信号分帧 对每一帧进行傅里叶变换,并取幅值,得到线性谱 对线性谱进行 Mel 刻度的
2021-03-11 23:28:42
1000
翻译 DurIAN: Duration Informed Attention Network For Speech Synthesis
@[TOC]# 系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 DurIAN: Duration Informed Attention Network For Speech Synthesis 前言 在本文中,我们提出了一种强大而有效的语音合成系统,可以生成高度自然的语音。系统的关键组件是 Duration Informed Attentio
2021-03-11 21:58:36
624
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人