SemantiCodec: An Ultra Low Bitrate Semantic Audio Codec for General Sound

abstract

audioCodec可以将音频量化,从而复用LLM结构,但是大部分高质量的Codec码率都比较高,不利于模型训练收敛,计算开销也很大。本文的目的是提出一个低比特率 & 高质量的Codec。
提出SemantiCodec,支持三种比特率,25/50/100;使用两个encoder:

  • semantic encoder,使用自监督的AudioMAE,+ kmeans 聚类;基于大数据得到聚类,分类准确度有95%。
  • acoustic encoder,捕捉剩余的细节信息,可学习的VQ方法得到聚类,目的是补充语义之外的信息,帮助高精音频还原;
  • 两种VQ特征拼接之后,作为LDM的condition input,还原高保真音频。

VQ训练的小trick

  • 知乎实验结论分享】个人感觉最立竿见影的就是用K-means重新初始化codebook。每隔一段时间初始化一次,保证codebook里每一个向量都在分布之内,不至于完全训练不到。

background

  • LLM的相关实验表明,更细粒度运行的分词器会有助于模型理解,比如BPE优于character-level tokenizers。然而作者对比现有的audio codecs发现,即使码率很高,并没有有效捕捉足够的语义信息。
  • 作者进行实验:在HEAR benchmark 上对比 【6.0 kbps Descript codec】和没有finetune的AudioMAE encoder,前者平均准确度只有33%,后者有65%。使用Descript codec第一层编码的结果,通常认为更多包含语义信息,平均准确度只有24%,语义信息的缺失会有碍audio LLM的建模。
  • (operating at a higher level of granularity, such as byte pair encoding [21], could substantially outperform character-level tokenizers, which often require the model to expand more capacity for understanding.)
  • HEAR benchmark:2021 NIPS 公开挑战赛的一个项目,用于比较不同模型提取的embedding在各种音频下游任务的性能区别。大概实现方法是:先提取音频embedding,训练一个简单的net,使用HEAR benchmark已经开发完的下游任务测试代码,测试比如pitch/语义等信息准确度。

在这里插入图片描述

  • 9
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
liteseg是一种新型的轻型卷积神经网络,用于语义分割任务。语义分割是计算机视觉中的一个重要问题,旨在将图像中的不同物体或区域进行标记和分割,从而更好地理解图像的内容。 相比于传统的语义分割方法,liteseg具有以下几个优点。首先,它是一种轻型网络,意味着它在计算资源和存储空间方面要求较低。这使得liteseg能够在资源受限的设备上运行,例如移动设备、嵌入式系统等。 其次,liteseg采用了一种新颖的卷积神经网络架构。这种架构结合了最新的深度学习技术和图像处理技术,旨在提高语义分割的准确性和效率。通过适当选择和组合不同类型的卷积层、池化层和解卷积层,liteseg能够捕捉图像中的不同尺度和领域的信息,并将其应用于语义分割。 第三,liteseg具有较低的模型复杂度。这意味着它需要更少的参数和计算量,从而减少了训练和推理的时间成本。这对于实时应用和大规模数据集的训练非常重要。 最后,liteseg还具有较好的鲁棒性和通用性。它可以应用于各种不同类型的图像和场景,包括自然图像、医学图像、遥感图像等。此外,liteseg在面对不同的光照、尺度变化和噪声等因素时也能保持良好的分割效果。 综上所述,liteseg作为一种新型的轻型卷积神经网络,具有在计算资源有限的设备上高效运行、准确性高、模型复杂度低以及对各种图像和场景具有通用性等优点。它有着广阔的应用前景,并在计算机视觉领域具有重要的研究和实际应用价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值