自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 kaldi安装

安装步骤:1. 下载源码git clone https://github.com/kaldi-asr/kaldi2. 编译编译主要分为两大步骤cd tools/ # 到tools文件下, INSTALL文件中包含了详细的安装步骤extras/check_dependencies.sh # 安装依赖make # 编译cd ../src # 到kaldi/src文件夹下./configure --sharedmake depend -j 8make .

2021-08-07 20:43:44 141

原创 《Multi-SpectroGAN》论文阅读

摘要目前基于GAN的TTS模型需要ground-truth和生成mel谱之间的重构误差和adversarial feedback 来学习, 因为只有adversarial feedback没办法训练生成器。而论文提出了通过将生成器的自监督隐藏表示作为条件判别器的条件,在反向传播时只是用adversarial feedback的多说话人模型, 称为Multi-SpectroGAN(MSG)。此外还提出了adversarial style combanaition(ASC)来更好地生成未见过的说话人的风格和.

2021-05-14 11:01:17 275

原创 《MP3net: coherent, minute-long music generation from raw audio with a simple convolutional GAN》论文阅读

Abstract文章提出了一种深度卷积GAN,它利用MP3/Vorbis音频压缩技术产生长距离、高质量的音频样本。该模型采用了一种改进的离散余弦变换(MDCT)数据表示方法,它包含了所有的相位信息。因此相位生成是模型主要的一部分。文章利用人耳的听觉掩蔽和心理声学感知极限来扩大真实分布,稳定训练过程。模型结构是一个二维卷积网络,其中每个后续生成器模型块沿时间轴增加分辨率,沿频率轴增加更高的倍频程。更深的层与输出的所有部分相连接,并具有完整轨道的上下文, 这使得能够生成长距离依赖的样本。 我们使用MP3ne.

2021-05-09 23:54:33 181

原创 《ADASPEECH: ADAPTIVE TEXT TO SPEECH FOR CUSTOM VOICE》论文阅读

Motivation目前语音合成中商业化的服务——语音定制, 对TTS提出了两项挑战:(1) 为了支持不同的用户, 自适应魔心更需要处理各种声学情况, 这和源数据是由很大差别的。(2) 为了支持大量的用户, 自适应参数需要足够小, 并且还能保存高质量的语音因此提出了AdaSpeech, 一个自适应地TTS系统,能够定制高质量,有效的声音。Previous work在语音定制过程中, 通常用少量的个性化语音样本来自适应源TTS模型。少量的自适应数据对合成语音的自然度和相似度提出了更大的挑战。 并.

2021-05-09 23:46:03 327

原创 《Exploring Cross-lingual Singing Voice Synthesis Using Speech Data》论文阅读

任务歌唱合成的目的是给定乐谱和旋律, 合成歌唱音频。歌唱合成系统能够通过训练目标说话人相关的同一语言下的歌唱/语音数据来构建。目前大多数的歌唱合成系统只支持一种语言,给定说话人的语音数据(同一语言)来合成歌唱声音。如Tacotron2 GST模型加入speaker embedding, pitch 后就能扩展到只用语音数据来进行歌唱合成。但是目前用说话人的非目标语言数据来训练,合成目标歌唱音频是很有挑战性的(如给定说话人的英文语音数据, 希望合成说话人的中文歌唱音频)。在这篇文章中介绍了一个跨语言的.

2021-04-01 16:47:52 134

原创 《A NEURAL TEXT-TO-SPEECH MODEL UTILIZING BROADCAST DATA MIXED WITH BACKGROUND MUSIC》阅读笔记

Motivation现在从各种媒体获取语音数据越来越方便, 如可以从youtube上获取音频数据。因此希望可以利用这些数据来做语音合成。 但存在一个问题是: 这些数据里面干净的数据不多, 大多数包含噪声或者背景音乐。 因此,文章提出的方法就是希望从这些媒体数据中来训练语音合成的模型。Previous method在训练TTS模型之前对数据进行预处理:如可以使用语音增强的方法。 过滤的方法一般分为基于语音信号和基于spectral masking的方法。 但是由于过滤后的数据和干净数据还是有区别的,.

2021-04-01 10:18:20 182

原创 梯度反转

参考文章:https://zhuanlan.zhihu.com/p/75470256https://daipuweiai.blog.csdn.net/article/details/104478550

2021-03-31 11:35:40 806

原创 MFA 使用记录

Montreal-Forced-Aligner 安装1. 下载package下载地址: https://github.com/MontrealCorpusTools/Montreal-Forced-Aligner/releases根据需求选择:(这里由于我是安装在服务器上的, 因此选择的是*_linux.tar.gz)2. 安装package将刚才下载好的package 上传到服务器, 解压文件:tar -zxvf montreal-forced-aligner_linux.tar.gz进

2021-03-23 11:23:16 2637 1

原创 《One-shot Voice Conversion by Separating Speaker and Content Representations with Instance Normaliz》

任务其他模型的局限: 只能将声音转换成训练数据中出现的说话人, 缩小了VC的使用范围。任务: 源说话人和目标说话人可以不出现在训练数据中, 只用一个样本就能进行语音转换。实现方法实例规范化说话人和说话内容。简介一般VC的目的是将语音信号的语言内容部分保留, 将非语言信息进行转换。非语言信息一般指的是说话人身份, 口音,发音等部分。 VC对一些下游的任务(如多说话人的语音合成, 表达性语音合成, 语音增强, 发音正确)来说是非常有用的。之前的工作可以分为两种类型:监督和无监督。监督的语音转换.

2021-03-16 17:20:15 412

原创 H-vector: 论文阅读

任务生成utterance-level embedding做法将音频语句看成一个文档, 可以被分成若干段和帧(看成是文档中的句子和词语)。 先得到segments representation后在综合起来得到utterance representation。Hierarchical attentionFrame-level encoder and Attention假设输入的Mel谱被分为N段:S∈RMN∗L={S1,S2,...,SN}S \in \mathcal R^{MN*L}=\{S.

2021-03-13 14:28:51 183

原创 M2VoC比赛论文——台湾大学

任务少样本下多说话人 多风格的语音克隆常见做法音色控制:使用embedding table/ speaker encoder中的speaker representation来联合学习单独训练一个模型来提取说话人信息风格控制:使用Global style token(GST)使用辅助的风格分类任务从语音信息中解耦风格信息文章做法将预训练好的speaker representation 应用到多说话人的TTS模型中, 并联合优化。speaker representationpr.

2021-03-12 16:28:57 522

原创 《Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs》论文

简介用token序列来做音乐生成时, 不同的token属于不同的类型, 不同类型的token有着不同的属性。 而目前的大多数模型都将这些token不加区分, 在这篇论文中作者将token细分为不同类型, 如note types 或者 metric types。并将若干tokens组成一个复合词(compound word),由此缩短了音乐序列的长度。对Transformer decoder 部分的结构进行改进, 使用不同的 feed-forward heads 来对不同类型的token进行建模。方法.

2021-03-03 12:03:21 893

原创 《Speaking Speed Control of End-to-End Speech Synthesis using Sentence-Level Conditioning》论文阅读

Abstract文章提出了一个可控的端到端语音合成系统,将句子级别的语速值作为条件输入来控制合成语音的语速。 该系统采用输入音素数与输入语音长度之比的语音速率值来控制语音速度。并且, 提出的SCTTS系统不仅能控制语速, 并且能获取其他的声学属性, 例如音高等。所提出的SCTTS不需要任何额外训练好的模型或外部语音数据库来提取音素级的持续时间信息,可以以端到端的方式进行训练。并且经过听力测试显示, fast-,normal-,slow-的音频都能比其他使用音素时长信息的模型生成的音频更自然。Intro.

2021-02-24 22:36:18 294

原创 《Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis》论文阅读

Abstract在这篇论文中提出了Flowtron:一个基于流的自回归生成网络,可以控制语音合成中的语音变化和风格迁移。 Flowtron 借鉴了IAF, 并对Tacotron 进行改造,提供了更高质量和表现力丰富的mel谱合成。 Flowtron 通过优化训练数据的最大似然估计,使得训练过程更简单,更稳定。 Flowtron 学习数据到潜空间之间的可逆变换, 该空间能够控制语音合成的各个方面, 如音高,语调, 语速,口音,节奏等。 MOS显示Flowtron能够达到当前语音合成的最新质量。 而且, 我.

2021-02-23 20:09:26 634

原创 《LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition》论文阅读

摘要语音合成和语音识别通常需要大量数量的文本和语音对数据来训练模型。然而在世界上还有超过6000种语言缺少语音训练数据,在低资源的语言上建立语音合成和语音识别系统依然是很有挑战的。 在这篇文章中, 我们提出了LRSpeech, 一个在低资源下的语音识别和语音合成系统,能够支持少量数据的不常见的语言。 LRSpeech 由三个关键技术组成:(1) 在多资源的语种上进行预训练,然后在低资源的数据上进行微调(2)TTS和ASR之间的对偶转换能够提高彼此的准确率;(3)用知识蒸馏的方法,根据高质量的目标说话人的.

2021-02-21 10:27:53 484 1

原创 NOISE ROBUST TTS FOR LOW RESOURCE SPEAKERS USING PRE-TRAINED MODEL AND SPEECH ENHANCEMENT论文阅读

摘要目前鲁棒性较强的模型依赖于大量高质量的,定制的数据收集。因此如何从互联网收集并充分利用低资源和低质量的声音数据来合成个性化的声音是非常值得探究的。在这篇文章中,提出了端到端的语音合成模型,使用了speaker embedding和noise representation作为条件输入来对说话人和噪声信息进行建模。 首先, 语音合成模型使用多说话人的干净的和包含噪声数据进行预训练; 然后用预训练好的模型来自适应低资源的带有噪声的新说话人的数据。最后,通过设置干净的语音条件该模型能够合成新说话人清晰的语音.

2021-02-04 00:09:27 383 1

原创 《VCTUBE : A Library for Automatic Speech Data Annotation》论文阅读

简介开源的Python:VCTUBE根据youtube上的视频生成<audio,text>数据,可以自动完成下载,分段, 标注等功能。VCTUBE结构:VCTUBE包含三个模块:(1) audio downoad : 给定的youtube上视频的URL, 以wav的形式下载视频对应的音频。如果在URL里面有多个视频,那么会下载多个音频。(2)Caption download: 包含start time, duration, text等内容。然后生成一个alignment.json.

2021-01-22 23:06:16 214

原创 GRAPHSPEECH: SYNTAX-AWARE GRAPH ATTENTION NETWORK FOR NEURAL SPEECH SYNTHESIS论文阅读

摘要\quad基于Attention的端到端语音合成在很多方面已经超过传统的统计方法。 其中,基于Transformer的TTS利用自注意力机制很好地对语音帧序列进行建模,但是并没有从句法的角度将输入的文本和输出的音频关联起来。因此提出了一种新的基于图神经网络结构的TTS模型(GraphSpeech)。GraphSpeech显式地对输入句子词汇的句法关系进行编码,然后将这些信息整合到模型中,获取句法驱动的character embedding 给TTS的attention。实验表明GraphSpeech.

2021-01-22 11:12:06 390 3

原创 GraphPB:Graphical representations of prosody boundary in speech synthesis论文阅读

摘要这篇文章介绍了在中文语音合成任务中,用图的方式来表示韵律边界,旨在在图领域中分析输入句子的语义和语法关系,以此提高合成语音的韵律效果。图的节点由韵律词构成, 边由其他韵律边界构成,记为prosodic phrase boundary(PPH) 和 intonation phrase boundary(IPH).不同的图神经网络如GGNN 和 G-LSTM等网络通常作为图编码器来找出图中韵律边界信息。因此Graph-to-sequennce 模型(包含图编码器+ attentional decoder.

2021-01-16 21:53:55 484

原创 Attentron:few-shot text-to-Speech Utilizing Attemtio-based Variabl-length Embedding论文阅读

摘要:提出attentron,一个少样本的语音合成模型用于克隆在训练过程中未出现的说话人的声音。这里引入了两个用于不同目的的特殊编码器。 一个微调的编码器通过注意力机制来提取变长的风格信息, 一个粗调的编码器用于提高语音合成的稳定性,避免了在合成未见过说话人的语音时产生胡言乱语。此外,模型还能扩展到任意长度的参考音频以此来改善合成语音的质量。关键词: 少样本,语音合成,多说话人模型, 说话人编码介绍少样本的语音合成方法:说话人自适应:在大量数据上预训练一个多说话人模型,然后在目标说话人的少量.

2021-01-11 21:58:40 542

原创 tmux使用指令

创建会话$ tmux new -s <session-name>查看所有的tmux窗口tmux ls进入会话tmux attach -t <session-name>离开会话Ctrl+b d或者$ tmux detach杀死会话tmux kill-session -t <session-name>窗口分割# 划分上下两个窗格$ tmux split-window# 划分左右两个窗格$ tmux split.

2021-01-11 20:39:44 84

原创 音频音乐与计算机的交融——声音种类和CA系统

计算机听觉综述声音的分类计算机听觉CA(computer Audition)一个完整CA算法系统音频事件检测声音的分类计算机听觉CA(computer Audition)一个完整CA算法系统采集声音数据预处理: 转换成单声道、重采样、解压缩音频分割: 事件端点检测声源分离:消除噪声、信号增强、提取音频特征:特征选择、抽取,表征学习机器学习/深度学习模型:分类或预测音频事件检测一段具有特定意义的连续声音,时间可长可短音频镜头:笑声 鼓掌声 枪声识别音频流中事件的起止时间和类

2021-01-10 11:20:32 765

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除