MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

动机:探索在音乐音频领域中应用自监督学习的潜力,提出一种音乐音频理解模型MERT,通过大规模自监督训练提高模型的性能,并解决音乐知识建模中的挑战。

方法:所提出的方法使用教师模型在掩码语言建模的自监督预训练中提供伪标签,将音频特征进行预训练。
在这里插入图片描述

  • 研究中采用了
  1. 基于RVQ-VAE的声学教师和
  2. 基于CQT的音乐教师,指导BERT风格的Transformer编码器进行音乐音频建模,并引入批内噪声混合增强以提高表示的鲁棒性。

优势:MERT模型在14个音乐理解任务上表现出色,取得了最先进的综合得分。论文提出的预训练范式在音乐理解中取得了SOTA性能,并提供了开源的音乐预训练模型,满足行业和研究社区的需求。

在这里插入图片描述

1. Motivation

在 音乐音频 方面 的 应 用 上 还 没有 一 个 通用 的 开源 预 训练 模型 (音乐 的 音调 和 音 高 特
征 等 音乐 知识 不 易 建 模 )

  • 探索 在 音乐 领域 中 应 用 自 监 督学 习 的 潜力

  • 提出 一 种 音乐 理解 模型 MERT

。 通过 大 规模 自 监督 训练 提高 模型 的 性 能 , 并 解决 音乐 知识 建 模 中 的 挑战

1.1

1.2

1.3

2. 方法

通过 教师 模型 和 掩 码 语言 建 模 任务 生成 伪 标签 , 对 音频 特征 进行 预 训练

  • 教 师 模型:

声学 教师 (如 k-means 或 者 深度 音乐 特征 ) : 用 于 预测 声学 特征 的 模型 ,RVQ-VAE
音乐 教师 (如 CQT 频 谱 ) : 用 于 重 构 音 乐 特征 的 模型 ,CQT;

  • 引入 批 内 品 声 混合 增强 , 增 强 模型 对 噪音 的 鲁 棒 性
  • 使 用 混合 增强 的 方法 来 生成 增强 的 单个 样本 , 而 不 是 使 用 原始 音频
  • 从 训练 集 里 随机 选择 一 批 音频 样本 , 形 成 一 个 数据 批 次
  • 从 这 个 批 次 里 随机 采样 一 些 较 短 的 音频 片段
  • 将原始音频与一定比率的较短音频片段相加, 一定的概率在随机位置添加,形成一个增强的样本;

2.1 MLM 预训练;

在这里插入图片描述

2.2 声学教师

  • 基于 传统 特征
  1. 用 log-Mel 频 谱 和 Chroma 特 征 进行 rmeans 聚 类

log-Mel; 一 种 音频 特征 提取 方法
chroma: 把 音频 信号 分 解 为 一 组 代表 12 个 音阶 的 分 量 , 捕 捉 音乐 中 的 和 声 和 和 六 信 息

  1. 音乐 特征 中 每 个 时 间 凡 的 信息 更 丰富 , 需 要 更 多 的 桶 类 中 心

对 于 log-Mel 频 谱 维度 为 229 的 特征 , 选 择 300 个 聚 类 中 心
对 于 Chroma 特 征 维度 为 264 的 特征 , 选 择 了 200 个 桶 类 中 心

  1. kmeams 的 缺点 : 难以 扩展 到 更 多 的 类 别 和 更 大 的 数据 集 , 且 村 类 结果 对 初始 化 敏感
  • 基于深度学 习
  1. EnCodee: 一 种 可 学 习 特征 , 采 用 了 8 层 的 残 差 向 量 量化 变 分 自 编码 器 (RVO-VAE)

  2. 每 个 声学特征 表 示 为 二 维 听觉 过 码 算 阵 , 第 i个 行 向 晶 表 示 帧 的 8 个 不 同 聚 类 的 结果 , 第j个 列向量表
    示音频序列中第 1 个码 书 codehook) 的 结果.

  3. EnCodec 将 24kHz 的 输入 波形 转换 为 每 秒 75Hz 的 8 个 不 同 入 , 量 化 器 具有 1024 维 度 。
    在这种设置 下 , 对于每 个 5 秒 的波形 , 离 散 的 声学 特征 是 一 个 具有 375x8 个 条 目的 矩阵 , 表 示 375 帧 75SHz x 5s) 和 8 个 深度 声学 特征

  4. 使 用 这 些 嵌入 ,EnCodee 的 解码 器 可 以 以 24 kHz 的 采样 率 重 构 具有 真实 音色 信息 的 波形

2.3  音乐教师

  1. 在 CQT(Consen Q Tfonsfom) 在图谱中重构损失, 来强调音高级别的信息。
  • CQP 一种频率转换方法,在各种音乐信息检索任务中广泛使用,如音高检测
    和弦识别和音乐转录 等;
  • 利用 均 方 误差 (MSE) 损 失 , 从 给定的被部分屏蔽的输入音频 x 中重构 CQT 谱图 Zcqt;
    损失 函数 如 下 :
    在这里插入图片描述

3. 小结

  • 探索 了 自 监督 学 习 在 原始 音乐 音频 建 模 方面 的 潜力 , 以 及 MERT 在 大 规模 模型 预 训练
    方面 的 有 效 性 。

  • 把 RVQ-VAE 和 CQT 教 师 模型 相 结合 , 提 供 了 在 音乐 理解 的 基于 MLM 的 预 训练 中 所 需的声学和音乐信息 的 独特 组 合 。

  • 通过采用批内噪声混合增强 和 层 前 归 一 化 , 加 强 了 集成 模型 的 稳定 性 和 训练 效果 。

  • MERT 模 型 的 性 能 超过 了 先前 的 baseline, 在 音乐 信息 检索 任务 中 取得 了 SOTA 效 果 。

。 提供 了 开源 的 音乐 预 训练 模型 , 满 足 行业 和 研究 社区 的 需求 。

3.1

3.2

3.3

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值