自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(334)
  • 资源 (2)
  • 收藏
  • 关注

原创 强化学习PPO & GRPO

要有奖励函数,但是不能是单一的绝对值奖励(最终目标奖励),这样会使得一些小的优化step 因为奖励太少/没有而被忽略;建立baseline,每次相对于baseline (critic)的改进是奖励,这个baseline 也是会学习 & 调整的;防止过度更新:对每次的奖励设置clip,并且限制新策略不会比旧策略偏离太远;

2025-06-12 10:55:28 389

原创 DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation

LLM 预测连续embedding,直接接DiT。和的文章思路一样。- LLM是casual attention,和diffusion 一起训练,相比于full attention会有性能的降低。因此采用【分而治之】的方法——长序列的连续tokens被分成多个patches;只有diffusion loss+stop loss;离散token 更适用于文本任务,图片/视频/音频等高清生成更适合连续向量。过往的方法要么效果不好(casual attention),要么计算开销很大。

2025-05-30 17:56:44 932

原创 cosyvoice3

用了更大量、多样的训练样本;直接基于token 做强化学习(WER/Speaker simi/Emotion)文章写的有点糙,后边很多sft 的方法只放结果不说实验细节。

2025-05-30 11:20:41 286

原创 Minimax-speech-hd

speech_encoder 提取音色信息,不需要prompt text(更加适用于跨语言任务,解耦了prompt 文本和prompt style/timbre)Flow-VAE 提升合成音质;

2025-05-29 20:41:00 248

原创 BigVGAN

103。

2025-05-16 13:20:30 133

原创 Muyan-TTS & Kimi-Audio

arch:

2025-05-13 09:42:17 691

原创 flow-matching 之学习matcha-tts & cosyvoice

【代码】flow-matching 之学习matcha-tts & cosyvoice。

2025-05-08 14:15:23 658

原创 SPARK-TTS

只用单个码本,使用BiCodec’s decoder 将codes还原音频并且可以实现合成音频的属性控制【gender, pitch level, and speed level 】,如果有属性控制,会使用COT的方式预测细粒度的【gender, pitch level, and speed level,semantic token】信息,如果没有属性控制,从prompt audio中提取global的信息;有一个预计开源的数据集:VoxBox 中的每个音频文件都标有性别、音高和速度。

2025-03-11 15:46:24 641

原创 IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System

character-pinyin 混合编码,解决多音字问题;FSQ 代替VQ,提升码本利用率;BigVGAN2 作为decoder;

2025-03-11 11:11:57 902

原创 Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

基于音频的单个码本建模,提出X-code2探索LLM-based tts 在training time scaling 和inference time scaling的性能【spk_simi, wer】training time scaling 探索不同的数据组(8w/16w/25w speech),不同的model_size(1B/3B/8B),检测指标:inference time scaling:基于过程反馈的spk_simi,基于结果反馈的WER,以及两个融合的策略。

2025-03-07 17:38:14 405

原创 MMM: Multi-Layer Multi-Residual Multi-Stream Discrete Speech Representation from SSL

continuous SSL embedding: 存储问题,scaling 问题,和其他模态的结合;semantic token: 信息损失比较多,还原高质量音频有难度;acoustic token: 多层码本,优化任务是关注流式效率和短上下文表示,通常缺乏语义信息。本文提出MMM 特征:从SSL layer的多层,kmeans得到离散表征;组成MMM 特征,在TTS 任务上,可以和acoustic token的结果持平甚至更好;结果:在ASR 任务上,可以和最好的SSL连续特征结果相当。

2025-02-27 14:44:34 266

原创 onnxruntime-gpu 如何跑起来

onnx转换的时候不需要特殊指定,infer阶段指定CUDAExecutionProvider即可实现gpu 推理,如果没有送到gpu 上,需要修改路径。输出结果是:==============测试是否使用的gpu。

2025-02-19 17:22:42 312

原创 flow-matching based TTS : VoiceBox, E2-TTS, maskGCT

用于音频编辑,降噪,ero-shot TTS,风格迁移等多种生成任务;和vall-E对比,WER更低 (5.9% vs 1.9%),spk simi 相当(0.580 vs 0.681),速度快20x,

2025-01-15 19:49:44 350

原创 强化学习之TTS 应用1

由于我们的模型生成的是30秒的片段,我们对前20秒和后20秒的质量得分进行计算,并取其平均值。因为MuLan只能输入10s的音频,MusicGen 生成的是30s的音频,对音频切段结果求average,得到reward value 在[−1;只用WER 指标的DPO,测试的WER 反而是三者最差,可能因为WER 更关注局部的bad case,而DPO 是基于整句做指标分析;IFT 有明确的情感控制;○ DPO 对训练的step敏感,适合更大的batch size,适中的step(论文选择350,图1)

2024-11-29 16:22:01 839

原创 RLHF之DPO

losspyw​∣x−pyl​∣x。

2024-11-18 15:57:26 422

原创 MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer

两级结构:两个masked generate transformer的模型,将一张图量化成固定的离散点,每次mask一部分,剩下的是ground truth,然后去预测mask的部分。text2semantic的时长是提前给到的;semantic token来自w2v-bert-2.0;acoustic token 的encoder 来自DAC, decoder来自vocos;

2024-10-31 16:44:25 456

原创 Moshi

NA​3×10−52×10−43×10−65×10−52×10−64×10−62×10−62×10−6。

2024-10-15 13:59:15 1192

翻译 FireRedTTS

DATA: 248k 数据。

2024-09-10 17:44:25 429

翻译 UniAudio

一个LLM模型做11个音频任务token的类型:Phoneme,MIDI转成frame-f0,text【机器翻译模型提取的emb+T5】,Semantic Token【Hubert 9th layer-kmeans】模型的缺点:同时有多种任务,数据的质量不能保证;可能会引入错误;1B 的模型size基于各种audio 数据,重新训练的codec,优化了判别器;基于自己的模型,8个码本 的效果更好;

2024-09-09 20:58:13 106

原创 全双工语音交互

文章目录微软小冰全双工字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1)微软小冰全双工全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio;涉及对输入音频的理解,包括语义理解,场景处理【是否多人对话,是在和机器人对话还是接听电话,混响降噪等】,节奏控制【比如有多段回复在进程池中,需要控制下一句回复什么,是否有的句子不需要回复,

2024-09-05 19:51:59 848

原创 DAC: High-Fidelity Audio Compression with Improved RVQGAN

Rithesh KumarDescript, Inc.2023NIPScode文章目录abstratmethodabstrat44.1k音频编码为8k bps,接近90x压缩比;可以处理speech, musiccodebook collapse: 部分码本没有利用到。----quantizer dropout :允许单个模型支持可变比特率,但实际上会损害全带宽音频的质量。-----method编码器评判的标准:(1)近乎无损的还原;(2)高压缩比;(3)适用于各种信号(spe

2024-08-30 14:19:04 599

原创 SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

audioCodec可以将音频量化,从而复用LLM结构,但是大部分高质量的Codec码率都比较高,不利于模型训练收敛,计算开销也很大。本文的目的是提出一个低比特率 & 高质量的Codec。提出SemantiCodec,支持三种比特率,25/50/100;semantic encoder,使用自监督的AudioMAE,+ kmeans 聚类;基于大数据得到聚类,分类准确度有95%。

2024-08-29 17:33:21 728 1

原创 PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

PeriodWave,第一个基于周期信息用于高分辨音频生成的结构。使用生成能力强大的flow-matching,结合优化器路径进行快速采样。探讨不同的ODE对于音频生成的效果。使用多周期估计器【使用质数prime number避免重叠】可以显著提升语音质量,但是会增大计算量导致infer 变慢。本文提出一个period-conditional universal estimator ,可以在推理阶段并行的推理多个周期路径。此外,还使用DWT变换,用以建模高频低频信息。用FreeU 降低高频噪声。

2024-08-26 19:48:15 1093

原创 Seed-TTS

因为一句prompt 生成多句音频,导致合成音频的韵律会比较单调,虽然和prompt 相似度比较高,但是不符合真实世界口语表达的风格多样性。WER: Whisper-large-v3 测试,并不是WER 越低越好,因为有的带口音,合成音频WER低可能说明相似度不够;

2024-08-19 10:33:51 1166

原创 GPT-SoVITS

【代码】GPT-SoVITS。

2024-08-14 16:40:33 563

原创 diffusion sampler

Karras noise schedule:名字带Karras的采样器,会在接近终点附近的几个step,noise 更小;作者对比该策略有助于实现更好的生成质量。名字中带a的,采样结果不收敛;考虑到可复现性,我们通常更喜欢可以收敛的结果。当然,如果想要稍微有些变化,可以使用 variational seed。Heun – A more accurate but slower version of Euler. 因为每步要采样两次。Ancestor Samplers:比如。

2024-08-08 20:00:55 364

原创 MELLE: Autoregressive Speech Synthesis without Vector Quantization

预测连续的mel spec代替预测VQ采样。难点在于:如何设计损失函数,LLM使用CE loss;---- 使用回归loss,并且引入spectrogram flux loss 以增加预测梅尔频谱的多样性并消除重复问题;如何增加多样性,LLM 通过top-k的选择,-----使用latent sampling module,源于自变分推断,作为一种序列采样策略,从而增强生成的音频样本的多样性。并且reduction scaler是可以调整的,得以一次预测多帧mel,减少序列长度不匹配的难点。

2024-07-30 16:14:29 1254

原创 Cosyvoice

监督训练得到的speech token,

2024-07-29 16:16:04 348

翻译 Laugh Now Cry Later: Controlling Time-Varying Emotional States of Flow-Matching-Based Zero-Shot Text

motivation: 使用flow-matching的结构,实现对TTS细粒度的情感控制,并且能够合成【哭、笑】等非语言表达。dataset:清洗了2.7w 小时的情感数据;基于meta的voicebox 架构,是对ELaTE工作的扩展(也是做细粒度情感控制,但是只能合成笑声)

2024-07-24 21:47:11 118

原创 GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual TTS

通常TTS收集的数据都是单语种,单风格的,也就是说语言和音色绑定,风格和音色绑定。为了解决这些问题,作者提出GenerTTS,(1)hubert-based bottleneck解耦音色和发音/风格,(2)使用互信息,mutual info,最小化style和语言之间的关系;

2024-05-30 17:51:58 711

原创 RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for TTS

使用CoT的思路,和Valle的框架,先实现LLM预测音素级别pitch/duration,然后预测speech token。

2024-05-15 20:07:14 479

原创 风格迁移adaIN 和DiT的adaLN

BN主要缺点是对batchsize的大小比较敏感,由于每次计算均值和方差是在一个batch上,所以如果batchsize太小,则计算的均值、方差不足以代表整个数据分布。因为在图像风格化中,生成结果主要依赖于某个图像实例,所以对整个batch归一化不适合图像风格化中,因而对HW做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立。LayerNorm:channel方向做归一化,算CxHxW的均值,主要对RNN(处理序列)作用明显,目前大火的Transformer也是使用的这种归一化操作;

2024-04-24 20:45:34 3091 1

原创 stabel-TTS

文章目录model archmodel archgithub测试网页text encoder 换成DiT结构;decoder 用flow结构,text 到mel的时长对齐,使用MAS,和Glow-TTS的结构很像【encoder从transformer变成了diffusion】

2024-04-23 14:37:22 391

原创 文生图 & 文生视频

stable diffusion的输入【step, noisy image,文本特征】,为了加强文本对生成内容的控制,引入classifier free guidance进行控制;有文本控制和没有文本控制的情况下,生成两种噪声,互减之后的部分既是文本引导改变的噪声部分,乘一定的系数对文本引导改变的结果进行加强,再加上没有文本引导部分的噪声,合并成本轮预测的噪声。stable diffusion的推理流程:CLIP模型对文本进行编码,得到文本-图片共享域的embedding;

2024-04-12 19:26:14 917

原创 MQ-TTS:A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech

160,发现增大到8。

2024-04-10 16:38:59 443

原创 MusicHiFi: Fast High-Fidelity Stereo Vocoding

主要用于高精度的音乐场景文章主要做了两件事:(1)低频mel谱输入,生成更高频率的语音;(2)单声道音频生成立体声;整体包含三个结构:(1)低频vocoder,低频mel还原低频音频;(2)band-width extension:HiFi vocder,低频音频生成高频音频;(3)mono-to-stereo,变立体声。三个部分使用的都是BigVGAN的结构,权重/loss独立。

2024-03-18 19:17:53 261

原创 naturspeech3

文章目录abstractmodel archabstractmodel arch

2024-03-14 19:25:15 192

转载 HIFI-CODEC

本文提出一个高分辨率的编解码器,HiFiCodecs,提出了group-residual vector quantization (GRVQ)的方案,使用4个码本。本文的motivation:在保证高质量还原的目标下,使用更少的码本。因为RVQ的第一个码本包含最多的信息,因此对于第一层编码,使用多个码本,即GroupRVQ。

2024-01-14 15:42:47 573

原创 LauraGPT

git:https://github.com/alibaba-damo-academy/FunCodec

2024-01-05 14:31:35 948

原创 Charsiu-G2P

‒ 输入格式:“language关键字+文本”首先过transformer-AutoTokenizer按照letter进行编码;编码序列送入charsiug2p模型(T5ForConditionalGeneration)‒ 输出格式:输出也是来源于发音词典 & g2p 模型预测结果两个部分。

2023-12-06 14:04:37 311

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除