paper笔记_林林宋的博客-CSDN博客

paper笔记

关注

文章平均质量分 81

关注数：文章数：162 文章阅读量：122331 文章收藏量：318

作者: 林林宋

不要急，不要慌，知识总是一点点积累起来的

展开

MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech

160，发现增大到8。

原创 2024-04-10 16:38:59 · 304 阅读 · 0 评论
MusicHiFi: Fast High-Fidelity Stereo Vocoding

主要用于高精度的音乐场景文章主要做了两件事：（1）低频mel谱输入，生成更高频率的语音；（2）单声道音频生成立体声；整体包含三个结构：(1)低频vocoder，低频mel还原低频音频；（2）band-width extension：HiFi vocder，低频音频生成高频音频；（3）mono-to-stereo，变立体声。三个部分使用的都是BigVGAN的结构，权重/loss独立。

原创 2024-03-18 19:17:53 · 168 阅读 · 0 评论
naturspeech3

文章目录abstractmodel archabstractmodel arch

原创 2024-03-14 19:25:15 · 131 阅读 · 0 评论
HIFI-CODEC

本文提出一个高分辨率的编解码器，HiFiCodecs，提出了group-residual vector quantization (GRVQ)的方案，使用4个码本。本文的motivation:在保证高质量还原的目标下，使用更少的码本。因为RVQ的第一个码本包含最多的信息，因此对于第一层编码，使用多个码本，即GroupRVQ。

转载 2024-01-14 15:42:47 · 100 阅读 · 0 评论
LauraGPT

git：https://github.com/alibaba-damo-academy/FunCodec

原创 2024-01-05 14:31:35 · 774 阅读 · 0 评论
Charsiu-G2P

‒ 输入格式：“language关键字+文本”首先过transformer-AutoTokenizer按照letter进行编码；编码序列送入charsiug2p模型（T5ForConditionalGeneration）‒ 输出格式：输出也是来源于发音词典 & g2p 模型预测结果两个部分。

原创 2023-12-06 14:04:37 · 159 阅读 · 0 评论
【meta-mms-tts+uroma encoding】Scaling Speech Technology to 1,000+ Languages

uroman转写工具N-to-M mapping 转写的规范，包含一些中文-拼音，拉丁文-读法的规则转换。字符串匹配规则下的查字典；将字母对应到发音单元转写规范转写过程尽量做到可逆映射；忽略变音符号，比如ouou`ou和ououou，转写结果是一样的；不会对缺乏原音的文本进行元音化数字，除了0-9一一进行阿拉伯数字的对应，还会对不同语言书写格式转写到阿拉伯计数上；

原创 2023-11-30 16:36:53 · 182 阅读 · 0 评论
多语言TTS：Multilingual speech synthesis

相似语种，英文-西班牙语的音色迁移更容易一些，英文-普通话效果差一些；motivation：单语种多语言发音问题。音色迁移成功，不代表口音native。

原创 2023-11-13 16:32:06 · 230 阅读 · 1 评论
NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

想要zero-shot的实现TTS音色复刻，包括对韵律，多样性风格的复刻。方法：neural codec/decodec的方法，和vall-e/audio_LM等不同的是，本文使用的是量化后的index编码回查码本的连续域向量（这个选择后文说理由），代替传统TTS系统中使用的声学特征（mel之类）。声学模型部分和fastspeech类似，输入音素，预测phn/pitch/duration相关的信息，送给diffusion结构作为condition，预测编码的连续域向量，最后通过镜像结构的解码器生成音频。

原创 2023-08-06 00:47:27 · 280 阅读 · 0 评论
mega-TTS 1&2

大数据是关键，pooling的结构是关键----prosody encoder选择mean-pooling=8，因为统计数据集的phn-dur平均值为9.1(phoneme pooling或者8倍pooling，个人认为8倍会好一点，比phoneme更鲁棒，因为脏数据提取的phoneme边界不太准确)，content length需要用对齐信息扩展到T，然后//8。并且prompt是音乐，生成的就是音乐，prompt是底噪，生成的也会有一定底噪。加适当英文是对中文有提升的，但是英文数据尽量不要远大于中文；

原创 2023-07-24 22:12:30 · 2278 阅读 · 3 评论
Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short

motivation：VITS的质量很好，本文工作旨在用更小的模型、更快的推理速度实现高质量合成。最耗时的是decoder（HFG）生成波形的模块，用iSTFTNet取代，完成频域到时域的转化；multi-band生成：each iSTFT module generates sub-band signals, summed to generate the full-band target waveform.

翻译 2023-07-04 10:30:58 · 145 阅读 · 0 评论
ImageBind: One Embedding Space To Bind Them All

问题：当人类接触世界的时候，视觉，听觉，嗅觉，触觉等多个感官都在接收信息。而当前的多模态任务，实际上是两个模态之间的交互，比如image-text pair，speech-text pair，image-audio pair，实际上并没有实现视觉-图像-文本三个模态的打通。主要难点在于，如果想要在同一空间建立多个模态的映射，就需要对于一张图片多个模态的描述信息，而这样的数据集是不存在。

翻译 2023-05-10 21:47:44 · 286 阅读 · 0 评论
多模态论文串讲：ALBEF & VLMo & BLIP & CoCa & Beit V3

image text matching loss(ITM Loss)：经由fc layer，实际上是一个二分类loss，判断一个【text，image】是不是一对数据，但实际训练中，会有大量的分类结果为否的情况，使得ITM Loss看起来很低，但实际并不一定起到足够的效果。因此，从ITC对比学习计算的cosine distance中选择和真实样本距离最近的（最难分辨的，称之为hard negatives)，用于ITM loss训练；损失函数：2个IT，2个MLM，1个ITM。

原创 2023-04-25 21:53:16 · 754 阅读 · 0 评论
SPEAR-TTS：Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

用两种离散的特征表示，将TTS分解成两个seq2seq任务：（1）文本到semantic tokens，类似于reading，需要audio-text平行数据（2）semantic tokens到acoustic tokens，类似于speaking，只需要纯音频，因此最终生成音频的质量和多样性和可获得的平行数据无关了。因为常规处理方法下，TTS需要平行数据（text-audio pair），这就导致数据来源受限。通过这样两阶段的改进，就可以利用到网上的海量的纯音频数据。

翻译 2023-04-17 22:03:02 · 673 阅读 · 0 评论
Learning the Beauty in Songs: Neural Singing Voice Beautifier

歌唱修音主要难点在于将基频和对应歌曲模板对齐，传统的是使用DTW或者CTW(Canonical Time Warping)算法，本文提出Shape-Aware DTW算法，可以改善对齐的鲁棒性。传统的修音只考虑了基频对齐，没有考虑整体听感的舒适感，本文将说话人的歌唱分为两部分：（1）vocal tone，是各种歌唱技巧的统称，（2）vocal timbre，具体指的是发音人的个性，比如音色。

翻译 2023-03-09 21:49:28 · 153 阅读 · 0 评论
Bag of Tricks for Unsupervised Text-to-Speech

在少量无监督数据，做语音合成。

翻译 2023-03-07 22:58:28 · 229 阅读 · 0 评论
CLIP & CLAP

CLIP/CLAP，图文/音频文字+对抗学习的表征

原创 2023-03-07 15:46:32 · 1066 阅读 · 0 评论
Fre-gan: Adversarial frequency-consistent audio synthesis

神经网络声码器在面对频率域真实谱和生成谱的不同时，会产生比如嘶嘶声，回声等噪音。本文的Fre-GAN可以完成更高质量的合成：（1）提出resolution-connected generator和resolution-wise discriminator，有助于在多个频带中学习多样的谱分布。（2）在判别器中使用离散小波变换代替average pooling作为降采样的方法，因为DWT可以确保所有的信息被保留，而AP会洗掉一些高频的成分。

翻译 2023-02-10 17:30:53 · 126 阅读 · 0 评论
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

做了什么事情？支持各种形式的输入（文本，音频，图片，视频），最终根据输入描述可控的生成音频。用到了文本、音频、视觉领域预训练模型encoder的能力。以及diffusion生成高质量结果的模型。text-to-audio生成的难点：（1）没有大量的txt-audio数据，（2）生成唱的连续音频较难；Make-An-Audio 的做法：（1）数据问题：使用distill-then-reprogram的方法引入伪prompt enhancement，从而实现对海量无标注语音数据的利用；

翻译 2023-02-10 14:20:48 · 813 阅读 · 0 评论
DelightfulTTS

提出一种高效有用的高质量语音生成系统：生成48KHz语音，本文使用声学模型生成16khz的，然后HiFiNet将16K的mel-spec再升采样为48k语音，在训练效率，模型稳定度、语音质量上求得折中。建模变量：输入的特征：（1）说话人id，语言id，pitch, duration，前两个都使用look up table；reference encoder编码；使用优化后的Conformer结构，实现更好的local & global建模。

翻译 2023-02-02 19:46:19 · 440 阅读 · 0 评论
A study on the efficacy of model pre-training in developing neural text-to-speech system

语音合成中存在text domain和说话人绑定的问题，想要探究预训练模型帮助说话人高质量的合成domain-mismatched text的问题。

翻译 2023-02-01 17:34:04 · 67 阅读 · 0 评论
TriniTTS: Pitch-controllable End-to-end TTS without External Aligner

语音合成的三大热门方向：端到端，韵律控制，非自回归系统的对齐。本文一次性解决上述三个问题，学习speech的隐层表征，通过performaning tasks(对齐搜索，基频估计，波形生成）。

翻译 2023-01-30 19:22:40 · 296 阅读 · 0 评论
MusicLM:Generating Music From Text

MusicLM：可以根据一段文本描述，比如“a calming violin melody backed by a distorted guitar riff”生成对应的24K音乐，音质和文本一致性优于base；condition输入可以是text，也可以是哼唱或者吹口哨这样的旋律，然后按照文本描述生成乐曲。开源了MusicCaps，有专家标注的misci–text caption，5.5k条，用于评估模型。

翻译 2023-01-30 15:45:22 · 896 阅读 · 0 评论
Wav2Vec & HuBert 自监督语音识别模型

自监督预训练语言模型，wav2vec, wav2vec2.0，HUBert

原创 2023-01-16 20:41:40 · 5102 阅读 · 1 评论
VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

motivation：生成高质量的音频，且具有长时相关性。speech量化成discrete tokens，然后恢复成音频。motivation：将大数据训练语言模型的方法引入到TTS中，通过极大的数据量进行in-context learning，使用prompt-based approaches方法做zero-shot TTS效果demo。

原创 2023-01-13 17:25:43 · 1722 阅读 · 0 评论
Streaming Voice Conversion Via BN And Non-streaming Teacher Guidance

motivation:流式VC，使用ASR bn特征，提升字准，保留src speech中的韵律信息。因为非流式的ASR-AM性能折损，ppgs/bn中会有timbre leakage，使用non-stream ASR作为teacher引导训练。IBF相比于PPGS明显有助于韵律强调保留，teacher guidance的训练策略，明显有助于source speaker信息的过滤。

翻译 2023-01-09 16:13:47 · 233 阅读 · 0 评论
ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech

韵律建模困难，在于：（1）基频提取不可避免的有误差；（2）不同的成分（picth, energy, duration）彼此依赖；（3）基频变动很大，但是用于训练的高质量数据很少。(1) 加入word-level 文本信息；（2）韵律信息不来自于直接提取，训练阶段从mel经由prosody encoder提取解耦的韵律特征（word-level），预测阶段来自LPV Predictor从word-level文本信息中自回归预测。

翻译 2023-01-03 21:48:48 · 278 阅读 · 0 评论
diffusion model相关原理推倒

由浅入深了解Diffusion Model

原创 2022-12-07 22:18:40 · 306 阅读 · 0 评论
TTS行业调研20221201

近两年行业&学术界语音合成方向动态

原创 2022-12-01 22:56:21 · 554 阅读 · 0 评论
Revisiting Over-Smoothness in Text to Speech

非自回归TTS的生成结果有over-smooth的问题。有两个解决思路：（1）提供更多的先验数据以简化数据分布；（2）增强模型的建模下能力，比如使用laplace mix loss。理由：MAE/MSE loss的假设是基于梅尔谱各帧相互独立，并且是一个单峰问题（uni-modal）——MSE从高斯分布演化而来，MAE从laplace演化而来，都是单峰分布；

翻译 2022-11-30 23:28:46 · 205 阅读 · 0 评论
2022-11-01语音之家&火山音频的分享

2022-11-01语音之家&火山音频的分享

原创 2022-11-01 20:34:36 · 439 阅读 · 0 评论
2022 interspeech TTS

2020 interspeech TTS论文笔记

原创 2022-09-28 10:37:41 · 886 阅读 · 0 评论
Glow-TTS & VITS

Glow-TTSVITS

翻译 2022-09-20 21:08:15 · 1382 阅读 · 0 评论
AdaSpeech1/2/3/4

小数据TTS, FT LN的两个参数

翻译 2022-09-07 22:06:11 · 473 阅读 · 0 评论
无监督特征解耦的变声

基于无监督说话人和内容信息解耦，实现语音转换

原创 2022-08-17 21:01:48 · 174 阅读 · 0 评论
Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

作者：单位：会议：文章目录abstractintroductionRelated Workabstract风格迁移的事情一直没做好主要有两个原因：（1）单条语音中得到的style embedding很难实现任意文本的细粒度风格控制；（2）style embedding中的content/text, prosody, and speaker timbre高度耦合，因此想要独立的控制其中一个部分很难。introduction风格迁移的意义：传统的风格迁移是让说话人录制多种风格的据用于合成，但是有的

翻译 2022-05-20 14:07:06 · 198 阅读 · 0 评论
Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervise TTS

会议：2022 icassp作者：Pengfei Wu单位：AI Lab, ByteDancedemo pageabstract任务：跨说话人情感迁移的TTS方法：训练一些emotion tokens代表不同的情感。同时为了避免cross-speaker emotion transfer带来的音色相似度下降的问题，使用speaker condition layer norm建模说话人身份。introduction监督方法需要标注数据量大；无监督方法得到的embedding可解释性 .

翻译 2022-05-12 16:31:46 · 304 阅读 · 0 评论
A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels

会议：icassp 2021作者：Junjie Pan单位：Bytedance AI-Lababstract小说TTS，包含多角色配音以及情感配音。传统的TTS时间久了听者疲劳，如果手动标记角色和情感，然后用multi-speaker emotional TTS合成，但是这样做成本很高。本文提出一个中文小说章节分析的系统，自动的预测speaker和emotion，然后进行TTS。background小说文本的理解主要包含说话人的确认以及情感分类。其中说话人确认又可以分为人物命名识别（.

翻译 2022-05-11 18:52:47 · 307 阅读 · 0 评论
Fine-grained prosody modeling in neural speech synthesis using ToBI representation

作者：Yuxiang Zou单位：Bytedance AI文章目录abstractproposed methodfront-endTTSexperimentabstractToBI (Tones and Break Indices)，英文的韵律标记本文在做英文语音合成，引入ToBI (Tones and Break Indices)进行细粒度的韵律建模，使用预训练的NLP模型ELECTRA，基于ToBI标签finetune，预测四种标签。然后和tacotron系统配合，完成韵律粒度更细致可控的英

翻译 2022-05-10 19:07:40 · 266 阅读 · 0 评论
Parallel Tacotron 1&2

单位：google作者：Isaac Elias时间：2020 & 2021 interspeech文章目录Parallel TacotronabstractintroductionmethodParallel Tacotronabstract非自回归框架contribution：基于VAE的residual encoder：可以缓解TTS上one-to-many的问题，并且改善自然度；lightweight convolutions：有效的建模local context；.

原创 2022-04-29 19:35:51 · 635 阅读 · 0 评论

paper笔记

作者: 林林宋

MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech

MusicHiFi: Fast High-Fidelity Stereo Vocoding

naturspeech3

HIFI-CODEC

LauraGPT

Charsiu-G2P

【meta-mms-tts+uroma encoding】Scaling Speech Technology to 1,000+ Languages

多语言TTS：Multilingual speech synthesis

NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

mega-TTS 1&2

Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short

ImageBind: One Embedding Space To Bind Them All

多模态论文串讲：ALBEF & VLMo & BLIP & CoCa & Beit V3

SPEAR-TTS：Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision

Learning the Beauty in Songs: Neural Singing Voice Beautifier

Bag of Tricks for Unsupervised Text-to-Speech

CLIP & CLAP

Fre-gan: Adversarial frequency-consistent audio synthesis

Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models

DelightfulTTS

A study on the efficacy of model pre-training in developing neural text-to-speech system

TriniTTS: Pitch-controllable End-to-end TTS without External Aligner

MusicLM:Generating Music From Text

Wav2Vec & HuBert 自监督语音识别模型

VALL-E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

Streaming Voice Conversion Via BN And Non-streaming Teacher Guidance

ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in Text-to-Speech

diffusion model相关原理推倒

TTS行业调研20221201

Revisiting Over-Smoothness in Text to Speech

2022-11-01语音之家&火山音频的分享

2022 interspeech TTS

Glow-TTS & VITS

AdaSpeech1/2/3/4

无监督特征解耦的变声

Cross-speaker Style Transfer with Prosody Bottleneck in Neural Speech Synthesis

Cross-speaker Emotion Transfer Based on Speaker Condition Layer Normalization and Semi-Supervise TTS

A Chapter-Wise Understanding System for Text-To-Speech in Chinese Novels

Fine-grained prosody modeling in neural speech synthesis using ToBI representation

Parallel Tacotron 1&2