林林宋-CSDN博客

原创强化学习PPO & GRPO

要有奖励函数，但是不能是单一的绝对值奖励（最终目标奖励），这样会使得一些小的优化step 因为奖励太少/没有而被忽略；建立baseline，每次相对于baseline (critic)的改进是奖励，这个baseline 也是会学习 & 调整的；防止过度更新：对每次的奖励设置clip，并且限制新策略不会比旧策略偏离太远；

2025-06-12 10:55:28 389

原创 DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

LLM 预测连续embedding，直接接DiT。和的文章思路一样。- LLM是casual attention，和diffusion 一起训练，相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches；只有diffusion loss+stop loss；离散token 更适用于文本任务，图片/视频/音频等高清生成更适合连续向量。过往的方法要么效果不好（casual attention)，要么计算开销很大。

2025-05-30 17:56:44 932

原创 cosyvoice3

用了更大量、多样的训练样本；直接基于token 做强化学习（WER/Speaker simi/Emotion）文章写的有点糙，后边很多sft 的方法只放结果不说实验细节。

2025-05-30 11:20:41 286

原创 Minimax-speech-hd

speech_encoder 提取音色信息，不需要prompt text（更加适用于跨语言任务，解耦了prompt 文本和prompt style/timbre)Flow-VAE 提升合成音质；

2025-05-29 20:41:00 248

原创 BigVGAN

103。

2025-05-16 13:20:30 133

原创 Muyan-TTS & Kimi-Audio

arch:

2025-05-13 09:42:17 691

原创 flow-matching 之学习matcha-tts & cosyvoice

【代码】flow-matching 之学习matcha-tts & cosyvoice。

2025-05-08 14:15:23 658

原创 SPARK-TTS

只用单个码本，使用BiCodec’s decoder 将codes还原音频并且可以实现合成音频的属性控制【gender, pitch level, and speed level 】，如果有属性控制，会使用COT的方式预测细粒度的【gender, pitch level, and speed level，semantic token】信息，如果没有属性控制，从prompt audio中提取global的信息；有一个预计开源的数据集：VoxBox 中的每个音频文件都标有性别、音高和速度。

2025-03-11 15:46:24 641

原创 IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System

character-pinyin 混合编码，解决多音字问题；FSQ 代替VQ，提升码本利用率；BigVGAN2 作为decoder；

2025-03-11 11:11:57 902

原创 Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

基于音频的单个码本建模，提出X-code2探索LLM-based tts 在training time scaling 和inference time scaling的性能【spk_simi, wer】training time scaling 探索不同的数据组（8w/16w/25w speech)，不同的model_size(1B/3B/8B)，检测指标：inference time scaling：基于过程反馈的spk_simi，基于结果反馈的WER，以及两个融合的策略。

2025-03-07 17:38:14 405

原创 MMM: Multi-Layer Multi-Residual Multi-Stream Discrete Speech Representation from SSL

continuous SSL embedding: 存储问题，scaling 问题，和其他模态的结合；semantic token：信息损失比较多，还原高质量音频有难度；acoustic token: 多层码本，优化任务是关注流式效率和短上下文表示，通常缺乏语义信息。本文提出MMM 特征：从SSL layer的多层，kmeans得到离散表征；组成MMM 特征，在TTS 任务上，可以和acoustic token的结果持平甚至更好；结果：在ASR 任务上，可以和最好的SSL连续特征结果相当。

2025-02-27 14:44:34 266

原创 onnxruntime-gpu 如何跑起来

onnx转换的时候不需要特殊指定，infer阶段指定CUDAExecutionProvider即可实现gpu 推理，如果没有送到gpu 上，需要修改路径。输出结果是：==============测试是否使用的gpu。

2025-02-19 17:22:42 312

原创 flow-matching based TTS : VoiceBox, E2-TTS, maskGCT

用于音频编辑，降噪，ero-shot TTS，风格迁移等多种生成任务；和vall-E对比，WER更低 (5.9% vs 1.9%），spk simi 相当(0.580 vs 0.681)，速度快20x，

2025-01-15 19:49:44 350

原创强化学习之TTS 应用1

由于我们的模型生成的是30秒的片段，我们对前20秒和后20秒的质量得分进行计算，并取其平均值。因为MuLan只能输入10s的音频，MusicGen 生成的是30s的音频，对音频切段结果求average，得到reward value 在[−1;只用WER 指标的DPO，测试的WER 反而是三者最差，可能因为WER 更关注局部的bad case，而DPO 是基于整句做指标分析；IFT 有明确的情感控制；○ DPO 对训练的step敏感，适合更大的batch size，适中的step（论文选择350，图1）

2024-11-29 16:22:01 839

原创 RLHF之DPO

losspyw∣x−pyl∣x。

2024-11-18 15:57:26 422

原创 MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

两级结构：两个masked generate transformer的模型，将一张图量化成固定的离散点，每次mask一部分，剩下的是ground truth，然后去预测mask的部分。text2semantic的时长是提前给到的；semantic token来自w2v-bert-2.0；acoustic token 的encoder 来自DAC， decoder来自vocos；

2024-10-31 16:44:25 456

原创 Moshi

NA3×10−52×10−43×10−65×10−52×10−64×10−62×10−62×10−6。

2024-10-15 13:59:15 1192

翻译 FireRedTTS

DATA: 248k 数据。

2024-09-10 17:44:25 429

翻译 UniAudio

一个LLM模型做11个音频任务token的类型：Phoneme，MIDI转成frame-f0，text【机器翻译模型提取的emb+T5】，Semantic Token【Hubert 9th layer-kmeans】模型的缺点：同时有多种任务，数据的质量不能保证；可能会引入错误；1B 的模型size基于各种audio 数据，重新训练的codec，优化了判别器；基于自己的模型，8个码本的效果更好；

2024-09-09 20:58:13 106

原创全双工语音交互

文章目录微软小冰全双工字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1)微软小冰全双工全双工的定义：一路持续的听，upload audio；一路持续的输出，download audio；涉及对输入音频的理解，包括语义理解，场景处理【是否多人对话，是在和机器人对话还是接听电话，混响降噪等】，节奏控制【比如有多段回复在进程池中，需要控制下一句回复什么，是否有的句子不需要回复，

2024-09-05 19:51:59 848

原创 DAC: High-Fidelity Audio Compression with Improved RVQGAN

Rithesh KumarDescript, Inc.2023NIPScode文章目录abstratmethodabstrat44.1k音频编码为8k bps，接近90x压缩比；可以处理speech, musiccodebook collapse: 部分码本没有利用到。----quantizer dropout ：允许单个模型支持可变比特率，但实际上会损害全带宽音频的质量。-----method编码器评判的标准：（1）近乎无损的还原；（2）高压缩比；（3）适用于各种信号（spe

2024-08-30 14:19:04 599

原创 SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

audioCodec可以将音频量化，从而复用LLM结构，但是大部分高质量的Codec码率都比较高，不利于模型训练收敛，计算开销也很大。本文的目的是提出一个低比特率 & 高质量的Codec。提出SemantiCodec，支持三种比特率，25/50/100；semantic encoder，使用自监督的AudioMAE，+ kmeans 聚类；基于大数据得到聚类，分类准确度有95%。

2024-08-29 17:33:21 728 1

原创 PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

PeriodWave，第一个基于周期信息用于高分辨音频生成的结构。使用生成能力强大的flow-matching，结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量，但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ，可以在推理阶段并行的推理多个周期路径。此外，还使用DWT变换，用以建模高频低频信息。用FreeU 降低高频噪声。

2024-08-26 19:48:15 1093

原创 Seed-TTS

因为一句prompt 生成多句音频，导致合成音频的韵律会比较单调，虽然和prompt 相似度比较高，但是不符合真实世界口语表达的风格多样性。WER: Whisper-large-v3 测试，并不是WER 越低越好，因为有的带口音，合成音频WER低可能说明相似度不够；

2024-08-19 10:33:51 1166

原创 GPT-SoVITS

【代码】GPT-SoVITS。

2024-08-14 16:40:33 563

原创 diffusion sampler

Karras noise schedule：名字带Karras的采样器，会在接近终点附近的几个step，noise 更小；作者对比该策略有助于实现更好的生成质量。名字中带a的，采样结果不收敛；考虑到可复现性，我们通常更喜欢可以收敛的结果。当然，如果想要稍微有些变化，可以使用 variational seed。Heun – A more accurate but slower version of Euler. 因为每步要采样两次。Ancestor Samplers：比如。

2024-08-08 20:00:55 364

原创 MELLE: Autoregressive Speech Synthesis without Vector Quantization

预测连续的mel spec代替预测VQ采样。难点在于：如何设计损失函数，LLM使用CE loss；---- 使用回归loss，并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题；如何增加多样性，LLM 通过top-k的选择，-----使用latent sampling module，源于自变分推断，作为一种序列采样策略，从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的，得以一次预测多帧mel，减少序列长度不匹配的难点。

2024-07-30 16:14:29 1254

原创 Cosyvoice

监督训练得到的speech token，

2024-07-29 16:16:04 348

翻译 Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text

motivation: 使用flow-matching的结构，实现对TTS细粒度的情感控制，并且能够合成【哭、笑】等非语言表达。dataset：清洗了2.7w 小时的情感数据；基于meta的voicebox 架构，是对ELaTE工作的扩展（也是做细粒度情感控制，但是只能合成笑声）

2024-07-24 21:47:11 118

原创 GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual TTS

通常TTS收集的数据都是单语种，单风格的，也就是说语言和音色绑定，风格和音色绑定。为了解决这些问题，作者提出GenerTTS，（1）hubert-based bottleneck解耦音色和发音/风格，（2）使用互信息，mutual info，最小化style和语言之间的关系；

2024-05-30 17:51:58 711

原创 RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for TTS

使用CoT的思路，和Valle的框架，先实现LLM预测音素级别pitch/duration，然后预测speech token。

2024-05-15 20:07:14 479

原创风格迁移adaIN 和DiT的adaLN

BN主要缺点是对batchsize的大小比较敏感，由于每次计算均值和方差是在一个batch上，所以如果batchsize太小，则计算的均值、方差不足以代表整个数据分布。因为在图像风格化中，生成结果主要依赖于某个图像实例，所以对整个batch归一化不适合图像风格化中，因而对HW做归一化。可以加速模型收敛，并且保持每个图像实例之间的独立。LayerNorm：channel方向做归一化，算CxHxW的均值，主要对RNN(处理序列)作用明显，目前大火的Transformer也是使用的这种归一化操作；

2024-04-24 20:45:34 3091 1

原创 stabel-TTS

文章目录model archmodel archgithub测试网页text encoder 换成DiT结构；decoder 用flow结构，text 到mel的时长对齐，使用MAS，和Glow-TTS的结构很像【encoder从transformer变成了diffusion】

2024-04-23 14:37:22 391

原创文生图 & 文生视频

stable diffusion的输入【step, noisy image，文本特征】,为了加强文本对生成内容的控制，引入classifier free guidance进行控制；有文本控制和没有文本控制的情况下，生成两种噪声，互减之后的部分既是文本引导改变的噪声部分，乘一定的系数对文本引导改变的结果进行加强，再加上没有文本引导部分的噪声，合并成本轮预测的噪声。stable diffusion的推理流程：CLIP模型对文本进行编码，得到文本-图片共享域的embedding；

2024-04-12 19:26:14 917

原创 MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech

160，发现增大到8。

2024-04-10 16:38:59 443

原创 MusicHiFi: Fast High-Fidelity Stereo Vocoding

主要用于高精度的音乐场景文章主要做了两件事：（1）低频mel谱输入，生成更高频率的语音；（2）单声道音频生成立体声；整体包含三个结构：(1)低频vocoder，低频mel还原低频音频；（2）band-width extension：HiFi vocder，低频音频生成高频音频；（3）mono-to-stereo，变立体声。三个部分使用的都是BigVGAN的结构，权重/loss独立。

2024-03-18 19:17:53 261

原创 naturspeech3

文章目录abstractmodel archabstractmodel arch

2024-03-14 19:25:15 192

转载 HIFI-CODEC

本文提出一个高分辨率的编解码器，HiFiCodecs，提出了group-residual vector quantization (GRVQ)的方案，使用4个码本。本文的motivation:在保证高质量还原的目标下，使用更少的码本。因为RVQ的第一个码本包含最多的信息，因此对于第一层编码，使用多个码本，即GroupRVQ。

2024-01-14 15:42:47 573

原创 LauraGPT

git：https://github.com/alibaba-damo-academy/FunCodec

2024-01-05 14:31:35 948

原创 Charsiu-G2P

‒ 输入格式：“language关键字+文本”首先过transformer-AutoTokenizer按照letter进行编码；编码序列送入charsiug2p模型（T5ForConditionalGeneration）‒ 输出格式：输出也是来源于发音词典 & g2p 模型预测结果两个部分。

2023-12-06 14:04:37 311

空空如也

空空如也