MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training

ZhengXinTang

于 2023-07-03 15:54:22 发布

阅读量1.1k

点赞数 1

分类专栏： # 自监督与无监督学习文章标签：深度学习自监督学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chumingqian/article/details/131492421

版权

自监督与无监督学习专栏收录该内容

8 篇文章

订阅专栏

动机：探索在音乐音频领域中应用自监督学习的潜力，提出一种音乐音频理解模型MERT，通过大规模自监督训练提高模型的性能，并解决音乐知识建模中的挑战。

方法：所提出的方法使用教师模型在掩码语言建模的自监督预训练中提供伪标签，将音频特征进行预训练。
在这里插入图片描述

研究中采用了

基于RVQ-VAE的声学教师和
基于CQT的音乐教师，指导BERT风格的Transformer编码器进行音乐音频建模，并引入批内噪声混合增强以提高表示的鲁棒性。

优势：MERT模型在14个音乐理解任务上表现出色，取得了最先进的综合得分。论文提出的预训练范式在音乐理解中取得了SOTA性能，并提供了开源的音乐预训练模型，满足行业和研究社区的需求。

在这里插入图片描述

1. Motivation

在音乐音频方面的应用上还没有一个通用的开源预训练模型 (音乐的音调和音高特
征等音乐知识不易建模 )

探索在音乐领域中应用自监督学习的潜力
提出一种音乐理解模型 MERT

。通过大规模自监督训练提高模型的性能，并解决音乐知识建模中的挑战

1.1

1.2

1.3

2. 方法

通过教师模型和掩码语言建模任务生成伪标签，对音频特征进行预训练

教师模型:

声学教师 (如 k-means 或者深度音乐特征 ) : 用于预测声学特征的模型，RVQ-VAE
音乐教师 (如 CQT 频谱 ) : 用于重构音乐特征的模型，CQT;

引入批内品声混合增强，增强模型对噪音的鲁棒性
使用混合增强的方法来生成增强的单个样本，而不是使用原始音频
从训练集里随机选择一批音频样本，形成一个数据批次
从这个批次里随机采样一些较短的音频片段
将原始音频与一定比率的较短音频片段相加，　一定的概率在随机位置添加，形成一个增强的样本；

2.1 MLM　预训练；

在这里插入图片描述

2.2　声学教师

基于传统特征

用 log-Mel 频谱和 Chroma 特征进行 rmeans 聚类

log-Mel; 一种音频特征提取方法
chroma: 把音频信号分解为一组代表 12 个音阶的分量，捕捉音乐中的和声和和六信息

音乐特征中每个时间凡的信息更丰富，需要更多的桶类中心

对于 log-Mel 频谱维度为 229 的特征，选择 300 个聚类中心
对于 Chroma 特征维度为 264 的特征，选择了 200 个桶类中心

kmeams 的缺点 : 难以扩展到更多的类别和更大的数据集，且村类结果对初始化敏感

基于深度学习

EnCodee: 一种可学习特征，采用了 8 层的残差向量量化变分自编码器 (RVO-VAE)
每个声学特征表示为二维听觉过码算阵，第 i个行向晶表示帧的 8 个不同聚类的结果，第j个列向量表
示音频序列中第 1 个码书 codehook) 的结果.
EnCodec 将 24kHz 的输入波形转换为每秒 75Hz 的 8 个不同入，量化器具有 1024 维度。
在这种设置下，对于每个 5 秒的波形，离散的声学特征是一个具有 375x8 个条目的矩阵，表示 375 帧 75SHz x 5s) 和 8 个深度声学特征
使用这些嵌入，EnCodee 的解码器可以以 24 kHz 的采样率重构具有真实音色信息的波形

2.3 　音乐教师

在 CQT(Consen Q Tfonsfom) 在图谱中重构损失，　来强调音高级别的信息。

CQP 一种频率转换方法，在各种音乐信息检索任务中广泛使用，如音高检测
和弦识别和音乐转录等；
利用均方误差 (MSE) 损失，从给定的被部分屏蔽的输入音频 x 中重构 CQT 谱图 Zcqt;
损失函数如下 :

3. 小结

探索了自监督学习在原始音乐音频建模方面的潜力，以及 MERT 在大规模模型预训练
方面的有效性。
把 RVQ-VAE 和 CQT 教师模型相结合，提供了在音乐理解的基于 MLM 的预训练中所需的声学和音乐信息的独特组合。
通过采用批内噪声混合增强和层前归一化，加强了集成模型的稳定性和训练效果。
MERT 模型的性能超过了先前的 baseline，在音乐信息检索任务中取得了 SOTA 效果。

。提供了开源的音乐预训练模型，满足行业和研究社区的需求。

3.1

3.2

3.3

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。