paper笔记
文章平均质量分 81
林林宋
不要急,不要慌,知识总是一点点积累起来的
展开
-
MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
160,发现增大到8。原创 2024-04-10 16:38:59 · 304 阅读 · 0 评论 -
MusicHiFi: Fast High-Fidelity Stereo Vocoding
主要用于高精度的音乐场景文章主要做了两件事:(1)低频mel谱输入,生成更高频率的语音;(2)单声道音频生成立体声;整体包含三个结构:(1)低频vocoder,低频mel还原低频音频;(2)band-width extension:HiFi vocder,低频音频生成高频音频;(3)mono-to-stereo,变立体声。三个部分使用的都是BigVGAN的结构,权重/loss独立。原创 2024-03-18 19:17:53 · 168 阅读 · 0 评论 -
naturspeech3
文章目录abstractmodel archabstractmodel arch原创 2024-03-14 19:25:15 · 131 阅读 · 0 评论 -
HIFI-CODEC
本文提出一个高分辨率的编解码器,HiFiCodecs,提出了group-residual vector quantization (GRVQ)的方案,使用4个码本。本文的motivation:在保证高质量还原的目标下,使用更少的码本。因为RVQ的第一个码本包含最多的信息,因此对于第一层编码,使用多个码本,即GroupRVQ。转载 2024-01-14 15:42:47 · 100 阅读 · 0 评论 -
LauraGPT
git:https://github.com/alibaba-damo-academy/FunCodec原创 2024-01-05 14:31:35 · 774 阅读 · 0 评论 -
Charsiu-G2P
‒ 输入格式:“language关键字+文本”首先过transformer-AutoTokenizer按照letter进行编码;编码序列送入charsiug2p模型(T5ForConditionalGeneration)‒ 输出格式:输出也是来源于发音词典 & g2p 模型预测结果两个部分。原创 2023-12-06 14:04:37 · 159 阅读 · 0 评论 -
【meta-mms-tts+uroma encoding】Scaling Speech Technology to 1,000+ Languages
uroman转写工具N-to-M mapping 转写的规范,包含一些中文-拼音,拉丁文-读法的规则转换。字符串匹配规则下的查字典;将字母对应到发音单元转写规范转写过程尽量做到可逆映射;忽略变音符号,比如ouou`ou和ououou,转写结果是一样的;不会对缺乏原音的文本进行元音化数字,除了0-9一一进行阿拉伯数字的对应,还会对不同语言书写格式转写到阿拉伯计数上;原创 2023-11-30 16:36:53 · 182 阅读 · 0 评论 -
多语言TTS:Multilingual speech synthesis
相似语种,英文-西班牙语的音色迁移更容易一些,英文-普通话效果差一些;motivation:单语种多语言发音问题。音色迁移成功,不代表口音native。原创 2023-11-13 16:32:06 · 230 阅读 · 1 评论 -
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers
想要zero-shot的实现TTS音色复刻,包括对韵律,多样性风格的复刻。方法:neural codec/decodec的方法,和vall-e/audio_LM等不同的是,本文使用的是量化后的index编码回查码本的连续域向量(这个选择后文说理由),代替传统TTS系统中使用的声学特征(mel之类)。声学模型部分和fastspeech类似,输入音素,预测phn/pitch/duration相关的信息,送给diffusion结构作为condition,预测编码的连续域向量,最后通过镜像结构的解码器生成音频。原创 2023-08-06 00:47:27 · 280 阅读 · 0 评论 -
mega-TTS 1&2
大数据是关键,pooling的结构是关键----prosody encoder选择mean-pooling=8,因为统计数据集的phn-dur平均值为9.1(phoneme pooling或者8倍pooling,个人认为8倍会好一点,比phoneme更鲁棒,因为脏数据提取的phoneme边界不太准确),content length需要用对齐信息扩展到T,然后//8。并且prompt是音乐,生成的就是音乐,prompt是底噪,生成的也会有一定底噪。加适当英文是对中文有提升的,但是英文数据尽量不要远大于中文;原创 2023-07-24 22:12:30 · 2278 阅读 · 3 评论 -
Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short
motivation:VITS的质量很好,本文工作旨在用更小的模型、更快的推理速度实现高质量合成。最耗时的是decoder(HFG)生成波形的模块,用iSTFTNet取代,完成频域到时域的转化;multi-band生成:each iSTFT module generates sub-band signals, summed to generate the full-band target waveform.翻译 2023-07-04 10:30:58 · 145 阅读 · 0 评论 -
ImageBind: One Embedding Space To Bind Them All
问题:当人类接触世界的时候,视觉,听觉,嗅觉,触觉等多个感官都在接收信息。而当前的多模态任务,实际上是两个模态之间的交互,比如image-text pair,speech-text pair,image-audio pair,实际上并没有实现视觉-图像-文本三个模态的打通。主要难点在于,如果想要在同一空间建立多个模态的映射,就需要对于一张图片多个模态的描述信息,而这样的数据集是不存在。翻译 2023-05-10 21:47:44 · 286 阅读 · 0 评论 -
多模态论文串讲:ALBEF & VLMo & BLIP & CoCa & Beit V3
image text matching loss(ITM Loss):经由fc layer,实际上是一个二分类loss,判断一个【text,image】是不是一对数据,但实际训练中,会有大量的分类结果为否的情况,使得ITM Loss看起来很低,但实际并不一定起到足够的效果。因此,从ITC对比学习计算的cosine distance中选择和真实样本距离最近的(最难分辨的,称之为hard negatives),用于ITM loss训练;损失函数:2个IT,2个MLM,1个ITM。原创 2023-04-25 21:53:16 · 754 阅读 · 0 评论 -
SPEAR-TTS:Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision
用两种离散的特征表示,将TTS分解成两个seq2seq任务:(1)文本到semantic tokens,类似于reading,需要audio-text平行数据(2)semantic tokens到acoustic tokens,类似于speaking,只需要纯音频,因此最终生成音频的质量和多样性和可获得的平行数据无关了。因为常规处理方法下,TTS需要平行数据(text-audio pair),这就导致数据来源受限。通过这样两阶段的改进,就可以利用到网上的海量的纯音频数据。翻译 2023-04-17 22:03:02 · 673 阅读 · 0 评论 -
Learning the Beauty in Songs: Neural Singing Voice Beautifier
歌唱修音主要难点在于将基频和对应歌曲模板对齐,传统的是使用DTW或者CTW(Canonical Time Warping)算法, 本文提出Shape-Aware DTW算法,可以改善对齐的鲁棒性。传统的修音只考虑了基频对齐,没有考虑整体听感的舒适感,本文将说话人的歌唱分为两部分:(1)vocal tone,是各种歌唱技巧的统称,(2)vocal timbre,具体指的是发音人的个性,比如音色。翻译 2023-03-09 21:49:28 · 153 阅读 · 0 评论 -
Bag of Tricks for Unsupervised Text-to-Speech
在少量无监督数据,做语音合成。翻译 2023-03-07 22:58:28 · 229 阅读 · 0 评论 -
CLIP & CLAP
CLIP/CLAP,图文/音频文字+对抗学习的表征原创 2023-03-07 15:46:32 · 1066 阅读 · 0 评论 -
Fre-gan: Adversarial frequency-consistent audio synthesis
神经网络声码器在面对频率域真实谱和生成谱的不同时,会产生比如嘶嘶声,回声等噪音。本文的Fre-GAN可以完成更高质量的合成:(1)提出resolution-connected generator和resolution-wise discriminator,有助于在多个频带中学习多样的谱分布。(2)在判别器中使用离散小波变换代替average pooling作为降采样的方法,因为DWT可以确保所有的信息被保留,而AP会洗掉一些高频的成分。翻译 2023-02-10 17:30:53 · 126 阅读 · 0 评论 -
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models
做了什么事情?支持各种形式的输入(文本,音频,图片,视频),最终根据输入描述可控的生成音频。用到了文本、音频、视觉领域预训练模型encoder的能力。以及diffusion生成高质量结果的模型。text-to-audio生成的难点:(1)没有大量的txt-audio数据,(2)生成唱的连续音频较难;Make-An-Audio 的做法:(1)数据问题:使用distill-then-reprogram的方法引入伪prompt enhancement,从而实现对海量无标注语音数据的利用;翻译 2023-02-10 14:20:48 · 813 阅读 · 0 评论 -
DelightfulTTS
提出一种高效有用的高质量语音生成系统:生成48KHz语音,本文使用声学模型生成16khz的,然后HiFiNet将16K的mel-spec再升采样为48k语音,在训练效率,模型稳定度、语音质量上求得折中。建模变量:输入的特征:(1)说话人id,语言id,pitch, duration,前两个都使用look up table;reference encoder编码;使用优化后的Conformer结构,实现更好的local & global建模。翻译 2023-02-02 19:46:19 · 440 阅读 · 0 评论 -
A study on the efficacy of model pre-training in developing neural text-to-speech system
语音合成中存在text domain和说话人绑定的问题,想要探究预训练模型帮助说话人高质量的合成domain-mismatched text的问题。翻译 2023-02-01 17:34:04 · 67 阅读 · 0 评论 -
TriniTTS: Pitch-controllable End-to-end TTS without External Aligner
语音合成的三大热门方向:端到端,韵律控制,非自回归系统的对齐。本文一次性解决上述三个问题,学习speech的隐层表征,通过performaning tasks(对齐搜索,基频估计,波形生成)。翻译 2023-01-30 19:22:40 · 296 阅读 · 0 评论 -
MusicLM:Generating Music From Text
MusicLM:可以根据一段文本描述,比如“a calming violin melody backed by a distorted guitar riff”生成对应的24K音乐,音质和文本一致性优于base;condition输入可以是text,也可以是哼唱或者吹口哨这样的旋律,然后按照文本描述生成乐曲。开源了MusicCaps,有专家标注的misci–text caption,5.5k条,用于评估模型。翻译 2023-01-30 15:45:22 · 896 阅读 · 0 评论 -
Wav2Vec & HuBert 自监督语音识别模型
自监督预训练语言模型,wav2vec, wav2vec2.0,HUBert原创 2023-01-16 20:41:40 · 5102 阅读 · 1 评论 -
VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
motivation:生成高质量的音频,且具有长时相关性。speech量化成discrete tokens,然后恢复成音频。motivation:将大数据训练语言模型的方法引入到TTS中,通过极大的数据量进行in-context learning,使用prompt-based approaches方法做zero-shot TTS效果demo。原创 2023-01-13 17:25:43 · 1722 阅读 · 0 评论 -
Streaming Voice Conversion Via BN And Non-streaming Teacher Guidance
motivation:流式VC,使用ASR bn特征,提升字准,保留src speech中的韵律信息。因为非流式的ASR-AM性能折损,ppgs/bn中会有timbre leakage,使用non-stream ASR作为teacher引导训练。IBF相比于PPGS明显有助于韵律强调保留,teacher guidance的训练策略,明显有助于source speaker信息的过滤。翻译 2023-01-09 16:13:47 · 233 阅读 · 0 评论 -
ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech
韵律建模困难,在于:(1)基频提取不可避免的有误差;(2)不同的成分(picth, energy, duration)彼此依赖;(3)基频变动很大,但是用于训练的高质量数据很少。(1) 加入word-level 文本信息;(2)韵律信息不来自于直接提取,训练阶段从mel经由prosody encoder提取解耦的韵律特征(word-level),预测阶段来自LPV Predictor从word-level文本信息中自回归预测。翻译 2023-01-03 21:48:48 · 278 阅读 · 0 评论 -
diffusion model相关原理推倒
由浅入深了解Diffusion Model原创 2022-12-07 22:18:40 · 306 阅读 · 0 评论 -
TTS行业调研20221201
近两年行业&学术界语音合成方向动态原创 2022-12-01 22:56:21 · 554 阅读 · 0 评论 -
Revisiting Over-Smoothness in Text to Speech
非自回归TTS的生成结果有over-smooth的问题。有两个解决思路:(1)提供更多的先验数据以简化数据分布;(2)增强模型的建模下能力,比如使用laplace mix loss。理由:MAE/MSE loss的假设是基于梅尔谱各帧相互独立,并且是一个单峰问题(uni-modal)——MSE从高斯分布演化而来,MAE从laplace演化而来,都是单峰分布;翻译 2022-11-30 23:28:46 · 205 阅读 · 0 评论 -
2022-11-01语音之家&火山音频的分享
2022-11-01语音之家&火山音频的分享原创 2022-11-01 20:34:36 · 439 阅读 · 0 评论 -
2022 interspeech TTS
2020 interspeech TTS论文笔记原创 2022-09-28 10:37:41 · 886 阅读 · 0 评论 -
Glow-TTS & VITS
Glow-TTSVITS翻译 2022-09-20 21:08:15 · 1382 阅读 · 0 评论 -
AdaSpeech1/2/3/4
小数据TTS, FT LN的两个参数翻译 2022-09-07 22:06:11 · 473 阅读 · 0 评论 -
无监督特征解耦的变声
基于无监督说话人和内容信息解耦,实现语音转换原创 2022-08-17 21:01:48 · 174 阅读 · 0 评论 -
Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis
作者:单位:会议:文章目录abstractintroductionRelated Workabstract风格迁移的事情一直没做好主要有两个原因:(1)单条语音中得到的style embedding很难实现任意文本的细粒度风格控制;(2)style embedding中的content/text, prosody, and speaker timbre高度耦合,因此想要独立的控制其中一个部分很难。introduction风格迁移的意义:传统的风格迁移是让说话人录制多种风格的据用于合成,但是有的翻译 2022-05-20 14:07:06 · 198 阅读 · 0 评论 -
Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervise TTS
会议:2022 icassp作者:Pengfei Wu单位:AI Lab, ByteDancedemo pageabstract任务:跨说话人情感迁移的TTS方法:训练一些emotion tokens代表不同的情感。同时为了避免cross-speaker emotion transfer带来的音色相似度下降的问题,使用speaker condition layer norm建模说话人身份。introduction监督方法需要标注数据量大;无监督方法得到的embedding可解释性 .翻译 2022-05-12 16:31:46 · 304 阅读 · 0 评论 -
A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels
会议:icassp 2021作者:Junjie Pan单位:Bytedance AI-Lababstract小说TTS,包含多角色配音以及情感配音。传统的TTS时间久了听者疲劳,如果手动标记角色和情感,然后用multi-speaker emotional TTS合成,但是这样做成本很高。本文提出一个中文小说章节分析的系统,自动的预测speaker和emotion,然后进行TTS。background小说文本的理解主要包含说话人的确认以及情感分类。其中说话人确认又可以分为人物命名识别(.翻译 2022-05-11 18:52:47 · 307 阅读 · 0 评论 -
Fine-grained prosody modeling in neural speech synthesis using ToBI representation
作者:Yuxiang Zou单位:Bytedance AI文章目录abstractproposed methodfront-endTTSexperimentabstractToBI (Tones and Break Indices),英文的韵律标记本文在做英文语音合成,引入ToBI (Tones and Break Indices)进行细粒度的韵律建模 ,使用预训练的NLP模型ELECTRA,基于ToBI标签finetune,预测四种标签。然后和tacotron系统配合,完成韵律粒度更细致可控的英翻译 2022-05-10 19:07:40 · 266 阅读 · 0 评论 -
Parallel Tacotron 1&2
单位:google作者:Isaac Elias时间:2020 & 2021 interspeech文章目录Parallel TacotronabstractintroductionmethodParallel Tacotronabstract非自回归框架contribution:基于VAE的residual encoder:可以缓解TTS上one-to-many的问题,并且改善自然度;lightweight convolutions:有效的建模local context;.原创 2022-04-29 19:35:51 · 635 阅读 · 0 评论