UniAudio

demo
code

abstract

  • 一个LLM模型做11个音频任务
  • token的类型:Phoneme,MIDI转成frame-f0,text【机器翻译模型提取的emb+T5】,Semantic Token【Hubert 9th layer-kmeans】
  • 模型的缺点:同时有多种任务,数据的质量不能保证;可能会引入错误;
  • 1B 的模型size
  • 基于各种audio 数据,重新训练的codec,优化了判别器;基于自己的模型,8个码本 的效果更好;

method

在这里插入图片描述

  • 多模态的特征先token化,最终的输出都是音频特征;
  • global transformer + local transformer的结合体:
    • 假设音频编码3个码本,global 先预测sum的结果,local 预测1/2/3级结果;3级结果sum之后,和之前的特征一起作为global 的condition;
    • 码本越多,还原的音频质量越高;但是码本越长,AR建模越难,而且内存占用越高;这样的设计可以达到很好的trade off;

experiment

在这里插入图片描述

  • 基于7个音频任务预训练,4个任务finetune;
  • finetune之后的模型在预训练7个任务上,和基座模型没有太明显的差异;【finetune 也是一种数据增广的方式】
  • finetune 过程,特定任务训练数据的重采样系数 α = 0.05;top-k=30,temperature=0.8。因为global 不直接预测结果,采样只在local transformer中发生。

几种不同的AR预测方式对比

在这里插入图片描述
在这里插入图片描述

- flatten 比parallel, coarse first, and delay prediction的生成质量都好;
- global+local的方式,和flatten 达到相当级别的生成质量,同时时间复杂度大大降低,从$O(T*N)^2$降低至$O(T)^2$

数据集

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值