- 博客(334)
- 资源 (2)
- 收藏
- 关注
原创 强化学习PPO & GRPO
要有奖励函数,但是不能是单一的绝对值奖励(最终目标奖励),这样会使得一些小的优化step 因为奖励太少/没有而被忽略;建立baseline,每次相对于baseline (critic)的改进是奖励,这个baseline 也是会学习 & 调整的;防止过度更新:对每次的奖励设置clip,并且限制新策略不会比旧策略偏离太远;
2025-06-12 10:55:28
389
原创 DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation
LLM 预测连续embedding,直接接DiT。和的文章思路一样。- LLM是casual attention,和diffusion 一起训练,相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches;只有diffusion loss+stop loss;离散token 更适用于文本任务,图片/视频/音频等高清生成更适合连续向量。过往的方法要么效果不好(casual attention),要么计算开销很大。
2025-05-30 17:56:44
932
原创 cosyvoice3
用了更大量、多样的训练样本;直接基于token 做强化学习(WER/Speaker simi/Emotion)文章写的有点糙,后边很多sft 的方法只放结果不说实验细节。
2025-05-30 11:20:41
286
原创 Minimax-speech-hd
speech_encoder 提取音色信息,不需要prompt text(更加适用于跨语言任务,解耦了prompt 文本和prompt style/timbre)Flow-VAE 提升合成音质;
2025-05-29 20:41:00
248
原创 flow-matching 之学习matcha-tts & cosyvoice
【代码】flow-matching 之学习matcha-tts & cosyvoice。
2025-05-08 14:15:23
658
原创 SPARK-TTS
只用单个码本,使用BiCodec’s decoder 将codes还原音频并且可以实现合成音频的属性控制【gender, pitch level, and speed level 】,如果有属性控制,会使用COT的方式预测细粒度的【gender, pitch level, and speed level,semantic token】信息,如果没有属性控制,从prompt audio中提取global的信息;有一个预计开源的数据集:VoxBox 中的每个音频文件都标有性别、音高和速度。
2025-03-11 15:46:24
641
原创 IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System
character-pinyin 混合编码,解决多音字问题;FSQ 代替VQ,提升码本利用率;BigVGAN2 作为decoder;
2025-03-11 11:11:57
902
原创 Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
基于音频的单个码本建模,提出X-code2探索LLM-based tts 在training time scaling 和inference time scaling的性能【spk_simi, wer】training time scaling 探索不同的数据组(8w/16w/25w speech),不同的model_size(1B/3B/8B),检测指标:inference time scaling:基于过程反馈的spk_simi,基于结果反馈的WER,以及两个融合的策略。
2025-03-07 17:38:14
405
原创 MMM: Multi-Layer Multi-Residual Multi-Stream Discrete Speech Representation from SSL
continuous SSL embedding: 存储问题,scaling 问题,和其他模态的结合;semantic token: 信息损失比较多,还原高质量音频有难度;acoustic token: 多层码本,优化任务是关注流式效率和短上下文表示,通常缺乏语义信息。本文提出MMM 特征:从SSL layer的多层,kmeans得到离散表征;组成MMM 特征,在TTS 任务上,可以和acoustic token的结果持平甚至更好;结果:在ASR 任务上,可以和最好的SSL连续特征结果相当。
2025-02-27 14:44:34
266
原创 onnxruntime-gpu 如何跑起来
onnx转换的时候不需要特殊指定,infer阶段指定CUDAExecutionProvider即可实现gpu 推理,如果没有送到gpu 上,需要修改路径。输出结果是:==============测试是否使用的gpu。
2025-02-19 17:22:42
312
原创 flow-matching based TTS : VoiceBox, E2-TTS, maskGCT
用于音频编辑,降噪,ero-shot TTS,风格迁移等多种生成任务;和vall-E对比,WER更低 (5.9% vs 1.9%),spk simi 相当(0.580 vs 0.681),速度快20x,
2025-01-15 19:49:44
350
原创 强化学习之TTS 应用1
由于我们的模型生成的是30秒的片段,我们对前20秒和后20秒的质量得分进行计算,并取其平均值。因为MuLan只能输入10s的音频,MusicGen 生成的是30s的音频,对音频切段结果求average,得到reward value 在[−1;只用WER 指标的DPO,测试的WER 反而是三者最差,可能因为WER 更关注局部的bad case,而DPO 是基于整句做指标分析;IFT 有明确的情感控制;○ DPO 对训练的step敏感,适合更大的batch size,适中的step(论文选择350,图1)
2024-11-29 16:22:01
839
原创 MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
两级结构:两个masked generate transformer的模型,将一张图量化成固定的离散点,每次mask一部分,剩下的是ground truth,然后去预测mask的部分。text2semantic的时长是提前给到的;semantic token来自w2v-bert-2.0;acoustic token 的encoder 来自DAC, decoder来自vocos;
2024-10-31 16:44:25
456
翻译 UniAudio
一个LLM模型做11个音频任务token的类型:Phoneme,MIDI转成frame-f0,text【机器翻译模型提取的emb+T5】,Semantic Token【Hubert 9th layer-kmeans】模型的缺点:同时有多种任务,数据的质量不能保证;可能会引入错误;1B 的模型size基于各种audio 数据,重新训练的codec,优化了判别器;基于自己的模型,8个码本 的效果更好;
2024-09-09 20:58:13
106
原创 全双工语音交互
文章目录微软小冰全双工字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1)微软小冰全双工全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio;涉及对输入音频的理解,包括语义理解,场景处理【是否多人对话,是在和机器人对话还是接听电话,混响降噪等】,节奏控制【比如有多段回复在进程池中,需要控制下一句回复什么,是否有的句子不需要回复,
2024-09-05 19:51:59
848
原创 DAC: High-Fidelity Audio Compression with Improved RVQGAN
Rithesh KumarDescript, Inc.2023NIPScode文章目录abstratmethodabstrat44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, musiccodebook collapse: 部分码本没有利用到。----quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----method编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(spe
2024-08-30 14:19:04
599
原创 SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound
audioCodec可以将音频量化,从而复用LLM结构,但是大部分高质量的Codec码率都比较高,不利于模型训练收敛,计算开销也很大。本文的目的是提出一个低比特率 & 高质量的Codec。提出SemantiCodec,支持三种比特率,25/50/100;semantic encoder,使用自监督的AudioMAE,+ kmeans 聚类;基于大数据得到聚类,分类准确度有95%。
2024-08-29 17:33:21
728
1
原创 PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation
PeriodWave,第一个基于周期信息用于高分辨音频生成的结构。使用生成能力强大的flow-matching,结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量,但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ,可以在推理阶段并行的推理多个周期路径。此外,还使用DWT变换,用以建模高频低频信息。用FreeU 降低高频噪声。
2024-08-26 19:48:15
1093
原创 Seed-TTS
因为一句prompt 生成多句音频,导致合成音频的韵律会比较单调,虽然和prompt 相似度比较高,但是不符合真实世界口语表达的风格多样性。WER: Whisper-large-v3 测试,并不是WER 越低越好,因为有的带口音,合成音频WER低可能说明相似度不够;
2024-08-19 10:33:51
1166
原创 diffusion sampler
Karras noise schedule:名字带Karras的采样器,会在接近终点附近的几个step,noise 更小;作者对比该策略有助于实现更好的生成质量。名字中带a的,采样结果不收敛;考虑到可复现性,我们通常更喜欢可以收敛的结果。当然,如果想要稍微有些变化,可以使用 variational seed。Heun – A more accurate but slower version of Euler. 因为每步要采样两次。Ancestor Samplers:比如。
2024-08-08 20:00:55
364
原创 MELLE: Autoregressive Speech Synthesis without Vector Quantization
预测连续的mel spec代替预测VQ采样。难点在于:如何设计损失函数,LLM使用CE loss;---- 使用回归loss,并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题;如何增加多样性,LLM 通过top-k的选择,-----使用latent sampling module,源于自变分推断,作为一种序列采样策略,从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的,得以一次预测多帧mel,减少序列长度不匹配的难点。
2024-07-30 16:14:29
1254
翻译 Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text
motivation: 使用flow-matching的结构,实现对TTS细粒度的情感控制,并且能够合成【哭、笑】等非语言表达。dataset:清洗了2.7w 小时的情感数据;基于meta的voicebox 架构,是对ELaTE工作的扩展(也是做细粒度情感控制,但是只能合成笑声)
2024-07-24 21:47:11
118
原创 GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual TTS
通常TTS收集的数据都是单语种,单风格的,也就是说语言和音色绑定,风格和音色绑定。为了解决这些问题,作者提出GenerTTS,(1)hubert-based bottleneck解耦音色和发音/风格,(2)使用互信息,mutual info,最小化style和语言之间的关系;
2024-05-30 17:51:58
711
原创 RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for TTS
使用CoT的思路,和Valle的框架,先实现LLM预测音素级别pitch/duration,然后预测speech token。
2024-05-15 20:07:14
479
原创 风格迁移adaIN 和DiT的adaLN
BN主要缺点是对batchsize的大小比较敏感,由于每次计算均值和方差是在一个batch上,所以如果batchsize太小,则计算的均值、方差不足以代表整个数据分布。因为在图像风格化中,生成结果主要依赖于某个图像实例,所以对整个batch归一化不适合图像风格化中,因而对HW做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立。LayerNorm:channel方向做归一化,算CxHxW的均值,主要对RNN(处理序列)作用明显,目前大火的Transformer也是使用的这种归一化操作;
2024-04-24 20:45:34
3091
1
原创 stabel-TTS
文章目录model archmodel archgithub测试网页text encoder 换成DiT结构;decoder 用flow结构,text 到mel的时长对齐,使用MAS,和Glow-TTS的结构很像【encoder从transformer变成了diffusion】
2024-04-23 14:37:22
391
原创 文生图 & 文生视频
stable diffusion的输入【step, noisy image,文本特征】,为了加强文本对生成内容的控制,引入classifier free guidance进行控制;有文本控制和没有文本控制的情况下,生成两种噪声,互减之后的部分既是文本引导改变的噪声部分,乘一定的系数对文本引导改变的结果进行加强,再加上没有文本引导部分的噪声,合并成本轮预测的噪声。stable diffusion的推理流程:CLIP模型对文本进行编码,得到文本-图片共享域的embedding;
2024-04-12 19:26:14
917
原创 MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech
160,发现增大到8。
2024-04-10 16:38:59
443
原创 MusicHiFi: Fast High-Fidelity Stereo Vocoding
主要用于高精度的音乐场景文章主要做了两件事:(1)低频mel谱输入,生成更高频率的语音;(2)单声道音频生成立体声;整体包含三个结构:(1)低频vocoder,低频mel还原低频音频;(2)band-width extension:HiFi vocder,低频音频生成高频音频;(3)mono-to-stereo,变立体声。三个部分使用的都是BigVGAN的结构,权重/loss独立。
2024-03-18 19:17:53
261
转载 HIFI-CODEC
本文提出一个高分辨率的编解码器,HiFiCodecs,提出了group-residual vector quantization (GRVQ)的方案,使用4个码本。本文的motivation:在保证高质量还原的目标下,使用更少的码本。因为RVQ的第一个码本包含最多的信息,因此对于第一层编码,使用多个码本,即GroupRVQ。
2024-01-14 15:42:47
573
原创 Charsiu-G2P
‒ 输入格式:“language关键字+文本”首先过transformer-AutoTokenizer按照letter进行编码;编码序列送入charsiug2p模型(T5ForConditionalGeneration)‒ 输出格式:输出也是来源于发音词典 & g2p 模型预测结果两个部分。
2023-12-06 14:04:37
311
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人