- 博客(35)
- 收藏
- 关注
原创 PnG BERT - 用于TTS的预训练BERT模型(变种)
文章目录模型结构实验及结果分析本文提出了一种BERT变种,PngBert是google在interspeech 2021提出的一种可以用做TTS encoder的预训练模型。该模型在BERT基础上,添加了字素信息和字素位置信息,在修改了mask方式,并用大数据量预训练模型,冻结底层参数之后,与TTS联合训练,作为TTS Encoder, 从而提升韵律和自然度。模型结构BERT等语言学信息添加到TTS训练过程是一个较早就开始使用的用于提升合成自然度或者韵律的方式。包括使用 word embeddi
2021-10-14 18:17:57 1169
原创 《ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURALSPEAKER EMBEDDINGS》
文章调研了多说话人TTS的建模方法,并且探究了不同类型的speaker embedding对合成系统的影响。作者通过实验认为,相比之下,LDE相对x-vector在zero-shot(unseen pseaker) TTS中的作用更优 寻找了一种利用speaker embedding相对较优 方案 LDE不仅有利于相似度,而且有利于自然度。 unseen < seen SV任务的表现似乎与TTS表现没有强烈的或者必然的联系1. 背景:对于多说话人或者说话人适应,目前学术...
2021-10-13 15:56:02 496
原创 Adaspeech
文章目录概述系统概述结果分析:概述本文是一片低资源合成的文章,主要关注两方面,一方面关注如何针对每个新的说话人使用尽量少的的数据实现相同的合成效果;一方面关注如何针对每个说话人占用更少的内存资源(模型参数)。针对上述问题,文章总结了目前的custom voice系统面临的挑战有两个:新的声音与训练集声音不一样保持音质的同事降低模型参数数量针对上述挑战,文章提出了两方面的解决方法:分别使用两个encoder建模句子级别和音素级别的声学参数,用于更好的建模不同的(多变的)(集
2021-04-27 16:12:07 435
原创 《Noise Robust TTS for Low Resource Speakers using Pre-trained Model and Speech Enhancement》
文章目录Q&A背景方法细节speaker embedding extractionnoise representation extractionBasic TTSdata set结果本文使用speaker embedding和noise embedding分别建模说话人信息和噪声信息,并将其作为条件输入到模型。先用干净多话者数据和加了噪声的数据预训练模型; 再用带噪声的低资源数据adaption; 最后只加入干净语音mask推理,合成干净的声音。与直接使用降噪数据finetune预训练模型(.
2021-04-20 18:33:15 516
原创 librosa.stft & librosa.core.stft
该函数是音频信号短时傅里叶变化的librosa实现,旧版本调用方式为librosa.core.stft, 目前新版本已经修改为librosa.stft文档地址 : https://librosa.org/doc/0.8.0/generated/librosa.stft.html函数头:librosa.stft(y, n_fft=2048, hop_length=None, win_length=None, window=‘hann’, center=True, dtype=None, pad_mode
2021-04-17 17:54:27 1664
原创 2021-03-31
文章目录概述系统概述结果分析:概述本文是一片低资源合成的文章,主要关注两方面,一方面关注如何针对每个新的说话人使用尽量少的的数据实现相同的合成效果;一方面关注如何针对每个说话人占用更少的内存资源(模型参数)。针对上述问题,文章总结了目前的custom voice系统面临的挑战有两个:新的声音与训练集声音不一样保持音质的同事降低模型参数数量针对上述挑战,文章提出了两方面的解决方法:分别使用两个encoder建模句子级别和音素级别的声学参数在decoder部分引入条件层正则化,新的数据来了
2021-03-31 10:23:43 186
原创 《Building Multilingual TTS using Cross-Lingual Voice Conversion》
使用从ASR模型生成PPG直接生成MCEP, LF0, BAP等特征,并用在Voice Conversion中,从而实现中日韩多语种多话者合成。尝试了三种方法,自然度MOS 3.28, 相似度MOS 2.77。文章认为,首先传统基于PPG的VC系统将声学特征和韵律特征分开,但是坐着认为这二者之间实际上并不是弱相关关系,而是强相关关系,因此,可以将二者集合起来,尤其是将不同语言的PPG也结合起来用于表征更强烈的韵律特征。其次,呼应上述观点,作者认为,传统VC系统提取F0的错误对最终效果影响很大,因此提出不.
2021-03-26 16:49:48 312
原创 On Improving Code Mixed Speech Synthesis with Mixlingual Grapheme-to-Phoneme Model
On Improving Code Mixed Speech Synthesis with Mixlingual Grapheme-to-Phoneme Model文章出自Microsoft STC India, INTERSPEECH 2020。本文在已有[^工作]
2021-02-20 10:38:12 309
原创 歌声合成,微软小冰:XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System
文章目录歌声合成摘要:背景:结构模型结构损失函数实验数据结果Ref:歌声合成难点:映射困难。语音合成认为音素是独立的,但是歌声合成中,发音说旋律影响,需要更加平滑,发音不确定性增大数据量大。IPA虽然可以标注音标,但是歌声合成的发音收到音高影响、歌手音域影响等音素发音种类指数级增加摘要:xiaoicesing 是一个高质量歌声合成器( Singing voice synthesis (SVS) ),基于fastspeech+WORLD(modified), 使用频谱、F0, 时长。
2021-01-03 16:29:59 1533
原创 praat 字符识别错误 : the phonetic font is not available
praat 打开汉语标注文件是,提示音素格式不可识别。解决:首先根据 praat官网 提示,下载官方可执行程序。下载字符支持软件 CharisSIL-5.000.exe, DoulosSIL-5.000.exe
2020-08-24 09:25:11 1243
原创 牛客-美团 : 硬币兑换
题目描述A 国一共发行了几种不同面值的硬币,分别是面值 1 元,2 元,5 元,10 元,20 元,50 元, 100 元。假设每种面值的硬币数量是无限的,现在你想用这些硬币凑出总面值为 n 的硬币, 同时你想让选出的硬币中,不同的面值种类尽可能多;在面值种类尽可能多的情况下,你想 让选择的硬币总数目尽可能多,请问应该怎么选择硬币呢?输入描述:第一行包含一个数字????,表示要凑出的面值。1 ≤ ???? ≤ 109输出描述:输出两个整数,分别表示最多能有多少种类型的硬币以及在类型最多的情况下最多
2020-08-08 09:11:18 412
原创 ICASSP2020 : Aligntts: Efficient Feed-Forward Text-to-Speech System Without Explicit Alignment
文章目录Q&A贡献模型训练推理实验一句话概括:基于端到端模型合成慢,非自回归模型虽然快,但是对齐学的不好,因此,基于 Baum-Welch算法,提出了 alignTTTS, 实现了快速合成,提出了 align-loss,提高了准确度和自然度。Q&A这里的length regular与fast speech有什么不同?alignment loss是怎么使用的?length regular 是什么流程?target length是怎么预测出来的?mi
2020-08-07 16:51:33 730
原创 [leetcode] 136. 只出现一次的数字
文章目录问题描述解析哈希表异或异或定义异或特性解题方法代码实现问题描述给定一个非空整数数组,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。说明:你的算法应该具有线性时间复杂度。 你可以不使用额外空间来实现吗?示例 1:输入: [2,2,1]输出: 1示例 2:输入: [4,1,2,1,2]输出: 4解析哈希表思想 : 每个元素的值作为 hashmap的key, 出现次数作为value最后遍历hashmap, value == 1 的, 就是只出现
2020-07-30 23:56:56 144
原创 java (二) --- 数据类型
文章目录1. 数据类型分类2. 数据类型转换2.1 自动转换2.2 强制转换Reference编程语言,类型为王1. 数据类型分类java是强类型变成语言。强类型任何变量,必须先声明,后使用。任何变量接受的值,必须与变量类型相匹配基本类型整数byte : 1字节short : 2字节int : 4字节long : 8 字节字符char : 2 字节浮点float : 4字节 (科学计数法存储,易发生数据不精确的问题)double : 8字节 (ja
2020-06-14 21:37:24 128
原创 java (一) --- 面向对象
文章目录1. 程序基本结构2. 结构化程序设计3. 面向对象3.1 面向对象程序设计步骤3.2 面向对象基本特征1. 程序基本结构一共三种,任何算法均由这三种结构组成:顺序结构选择结构循环结构当型直到型2. 结构化程序设计结构化程序设计原则:主张按功能来分析系统需求自顶向下,逐步求精,模块化结构化设计步骤:结构化分析(SA)结构化设计 (SD)结构化编程(SP)局限性:设计不直观,跟人类思维模式不同。(人类是按照一个个具体对象认识世界的,比如
2020-06-14 21:11:20 171
原创 语音编码(一) : 概述
文章目录概述语音编码的提出:语音压缩编码的可行性:语音编码的分类:Reference概述语音编码的提出:语音信号有模拟信号存储和数字信号两种,而数字信号存储有更好的效率和性能:话音质量更好抗干扰性强,保密性好。节省带宽容易存储和处理。但是,数字化存储,数据量仍然很大,传输和存储之前,应该先进行压缩编码,目的是减少减少传输码率和存储量,即: 保证音质与可懂度的同时,采用尽可能少的比...
2020-04-19 11:13:23 2126
原创 Cross-Lingual, Multi-Speaker Text-To-Speech Synthesis Using Neural Speaker Embedding
前置知识style token结论性知识端到端需要至少10小时的数据量。According to [1], it concludes that around 10 hours of speech-transcript pairs from one speaker are needed to get high quality by a neural end-to-end TTS model...
2020-02-08 15:50:49 1243
原创 ffmpeg拼接音频文件
拼接在音频文件前后添加静音段ffmpeg -i sil2.wav -i long.wav -i sil2.wav -filter_complex ‘[0:0] [1:0] concat=n=3:v=0:a=1 [a]’ -map [a] new.wavreferenceffmpeg 多个音频合并 截取 拆分...
2020-01-15 14:34:34 3262 1
原创 griffin-lim算法及 vocoder声码器
G&L(griffin-lim)算法是一种已知幅度谱,未知相位谱,通过迭代生成相位谱,并用已知的幅度谱和计算得出的相位谱,重建语音波形的方法。griffin-lim是一种声码器,常用于语音合成,用于将语音合成系统生成的声学参数转换成语音波形,这种声码器不需要训练,不需要预知相位谱,而是通过帧与帧之间的关系估计相位信息,从未重建语音波形。声码器(vocoder)声码器是一种将声学参...
2020-01-14 11:46:24 8030
原创 LPCNET学习
可以参考:from 知乎:https://zhuanlan.zhihu.com/p/54952637referenceThe μ-law CODECPCM音频压缩A-Law算法,uLawa-law原理及算法实现几种常见音频编码格式的总结几种基本的pcm编码总结...
2020-01-13 18:51:15 735
原创 语音信号处理2 ----- 预处理
预加重-- 预加重是语音信号处理的前提,主要目的是提升语音信号中的高频分量。 人的发生系统是从肺开始,肺作为能量源,气流通过声带,引发周期性震动(元音),能量经过咽、口腔、唇、舌, 形成最后的声音。元音能量主要集中在1KHz以下,并且以6dB/十倍频的速度下降。辅音一般不引起声带振动,频率更高。其中口唇辐射对低频影响比较小,但是对高频段影响比较大, 预加重就是为了消除这种影响,提升高频分...
2020-01-08 17:42:21 4213
原创 语音信号处理1 ----- 基础知识
语音信号处理1 ----- 基础知识1. 语音信号处理的目的:2. 语音发音和感知系统2.1 语音发音系统2.2 语音感知系统(听觉系统)2.2.1 听觉系统2.2.2 听觉特性2.3 语音信号生成的数学模型3. 语音基本概念及参数4. 语音信号数字化处理参考1. 语音信号处理的目的:转换语音信号为语音参数,方便传输和存储。提取语音特征用于实际应用。2. 语音发音和感知系统2.1 ...
2019-11-21 14:36:51 1997
原创 语音信号处理 0 ----- 写在前面
语音是人类社会传递信息最有效、最常用、最方便的信息交换方式。计算机是人类历史上具有创世纪意义的发明创造。几百年来,人类一直在探索和寻找是机器说话甚至与人类交流的方法。几十年来,科研工作者,工业界一直在孜孜不倦的追求让计算机听懂人类语言,并且与人类交流的的梦想。因此产生的语音相关课题不断涌现。语音识别、语义理解、对话生成、机器翻译、语音合成形成了人机对话的循环。因此而产生的十分必要的研究方向还包括 ...
2019-11-21 10:57:00 320
原创 numpy 中 对于shape 以及 axis 的理解
np.shape 怎么看: 从左往右看,shape从左往右顺序就是numpy数组从外往内的顺序。从左往右,从外往内,越来越细。比如下面的数组t, t.shape = (2,3,2,3), 解释为2(第一个数字2)个三维数组,大小为3*2*3, 每个三维数组有3(第二个数字3)二维数组,数组大小为2*3。又如, a = np.array([1,2,3]), 则 a.shape = (3,...
2019-10-30 11:28:19 1159 1
原创 open-jtalk 编译与使用
1. open-jtalk [open-jtalk](http://open-jtalk.sourceforge.net/ ) 是一个开源的日语合成系统,相当于日文版的festival。该系统包括的日语合成系统的前端处理和后端合成,使用C语言编写。2.编译:http://open-jtalk.sourceforge.net/ source code下载源码 解...
2019-10-11 21:23:50 1870
原创 tensorflow数据读取过程
思考如果tf读取文件是这样的:1.读取文件, 2.将文件数据送入内存计算。那么就意味这读取和计算是串行的,效率低下。那么提高效率的一个简单途径,就是将两个步骤并行化。这样就可以把数据读取与数据计算分离。tf改进tf的数据读取更进一步,添加了一个文件名管理队列,用于先将需要处理的数据的文件存储起来,这样就可以与epoch(将所有数据训练一遍称为一个epoc...
2019-09-07 10:26:53 159
原创 tmux 解决屏幕比例不协调问题
有时候 tmux 突然中断之后,再次进入时,会发现屏幕被限制在了一个很小的范围内,其他的地方全部变成了点 “.”, 或者“烫”解决办法:再次进入时使用 -d 参数:tmux a -d -t [YOUR TMUX NAME]...
2019-08-20 09:57:34 4858 2
原创 批量查看目录下文件数目
情景1:有目录AAA,有子目录 A1 - A100。批量查看各个子目录下文件或者目录数目:运行在AAA下。bash count.sh#!/bin/bash# useage# ./thisfilename.sh source# NOTE:## ensure this .sh file is changed mod# source is which dir you w...
2019-03-09 09:49:23 1250
原创 将指定目录下指定数目的目录分批移动到另一目录
情景1:现有一个目录dir_origin,该目录下有10000个子目录。现需要将该目录下的10000子目录,100个子目录为一批,分别移动到指定目录:1~100子目录移动到dir1,101~102子目录移动到dir2。只关注数目,不关注文件命名方式。方法:1. 用脚本创建100个格式化名称的dirNUM#!/bin/bash# make sure you route of...
2019-03-05 23:34:47 331
原创 linux 获取当前目录下子目录所有文件,并对其进行操作
现有任务如下:我们拿到了一个目录,目录下有若干子目录,每个子目录下还有若干子目录和文件,我们希望只输入最上层目录,就可以吧该目录下所有的文件都取出来,然后进行移动或者复制。目录结构或许是这样的:dir1 |-- subdir1 +-- subdir3 +-- audiofile.wav |-- subdir2 +--audi...
2018-12-22 21:15:18 9309
原创 python文本编辑-------读取文本,去除不符合要求字符后保存至新文件
现在有这样一个任务:我们有一个文本,内容如下:ws0012cs3d4 这,里。3是.一!?些a文 Z本…文本里面有中英文标点符号,英文字符,数字,字母,中文,空格等等,现在我们需要把这些文本按行读取,前面的标号(ws0012cs3d4 )保持不变,后面文本过滤成仅包含中文文本的数据,然后把标号和文本重新拼起来,保存在新的文件中。代码如下:# -*- coding: utf-8 -*-'...
2018-12-21 16:28:46 2553
原创 语音合成综览
1.简介传统合成方法语音合成,通常又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术,是人机语音交互中不可或缺的模块之一。现代TTS的流程十分复杂。比如,统计参数 TTS(statistical parametric TTS)通常具有提取各种语言特征的文本前端、持续时间模型(duration model)、声学特征预测模型和基于复杂信号处理...
2018-12-10 22:34:29 2230 2
原创 Anaconda安装及虚拟环境搭建教程(linux)
1.下载:Anaconda3https://www.anaconda.com/download/#linux2.安装命令:切换至安装包所在目录,执行以下命令:bash Anaconda3-5.3.0-Linux-x86_64.sh3.一路按回车阅读完 license,直至出现 Please answer ‘yes’ or ‘no’:’ 。4.输入 yes 表示接受5.输入安装路径输...
2018-12-10 21:53:20 1272
原创 存储系统(1)-------存储系统的层次结构
@TOC目的为了解决计算机容量,价格,速度之间的关系2.层次1). 逻辑上分为以下层次:CPU(通用寄存器) &lt;-&gt; cache &lt;-&gt; 主存 &lt;-&gt; 辅存2). 主要层次:• cache:提高访问速度• 虚拟存储器:提高存储器容量3.原则1).包含性原则:上层存储器存储内容为下层存储器一部分内容的副本。比如cache内容为主存某
2018-11-16 08:22:29 1916
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人