基于内容的音乐推荐中负面偏好的对比学习研究

文章探讨了在音乐推荐系统中如何利用负反馈来改进推荐效果。通过对比学习方法，特别是暹罗神经网络，研究了三种模型：CLEP-PN、CLEP-P和CLEP-N，分别结合正负偏好、仅正偏好和仅负偏好进行训练。实验使用了预训练的CLMR、MEE和Jukebox模型进行特征提取，并从24位志愿者的音乐偏好数据中收集反馈，以评估模型性能。结果显示，负反馈在理解用户音乐品味和提高推荐多样性方面起着重要作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Exploiting Negative Preference in Content- based Music Recommendation with Contrastive Learning
发表会议：In Sixteenth ACM Conference on Recommender Systems (RecSys ’22)

一、Motivation

动机

大多数真实世界的推荐系统的实际目标是“影响用户消费比没有推荐时更多的商品，而不是预测用户将消费的下一个商品。”
为了系统地解释推荐系统的改善机制，必须了解一个人的音乐品味。朴素贝叶斯给我们的启发是：**解释讨厌的音乐是否比解释喜欢的音乐更加容易？**于是作者团队提出一个应用负反馈的推荐系统，并且力求说明负反馈在建模音乐品味中的作用，而且在某种程度上，一个人的音乐品味可以被看作是一组歌曲的组合。

现状

基于内容的音乐推荐系统在利用音频内容本身方面有很强的优势，由于它对内容的依赖，它弥补了协同过滤方法的局限性，例如由于新项目或新用户的信息不足引起的冷启动问题。传统的基于内容的音乐推荐系统主要基于一首音乐的元信息metadata：歌手、专辑、流派…
随着音乐信息检索的发展，产生了各种处理音乐内容的方式，提取高水平音频特征（如旋律、和声、节奏）和低水平音频特征（如梅尔倒频谱系数(MFCC)、梅尔频谱）都成为可能。还有采用对比学习思想，基于深度学习的音乐特征提取器（CLMR）；采用多尺度VQ-VAE的思想提取音乐的底层特征。

但需要注意的是，基于内容的音乐推荐系统通常高度依赖于相似度。这会导致推荐缺乏新颖性，内容相似性曾被批评不能完全捕捉用户的偏好。我们希望通过利用用户偏好数据和内容来克服这些问题，参考[2013 Deep content-based music recommendation]的工作，它通过使用包含用户反馈信息的ground truth成功地弥合了基于内容的过滤方法中的语义鸿沟。

二、Overflow

用户反馈分为显示反馈（rating）和隐式反馈（浏览历史、购买历史），而在音乐推荐系统中使用负面反馈（负面偏好）有助于群体找到所有个体都满意的共识解决方案。音乐中的负面反馈比如：跳过一首歌。

我们研究的主要目标是通过比较偏好受到不同条件制约的推荐模型来了解负面偏好的影响。为了进行系统研究，我们设计了模型应用的框架，包括三个部分：①音乐的特征提取②CLEP嵌入③偏好预测。框架概述如下图1所示：
在这里插入图片描述

特征提取Feature Extraction

在前端特征提取层使用了前人最近的工作来分别对比效果，即：

对比学习音乐表示(CLMR) [2021 Contrastive learning of musical representations]，它通过将同一首歌的不同部分指定为正样本，将不同歌曲的部分指定为负样本进行对比学习
音乐效果编码器(MEE) [2022 End-to-end Music Remastering System Using Self-supervised and Adversarial Training]，MEE修改了CLMR的想法，以捕捉歌曲的整体音色和情绪，包括它的掌握风格
点唱机 [2020 Jukebox: A generative model for music]，Jukebox采用分层VQ-VAE架构引入了Music VQ-VAE，其编码器成功地表示了具有潜在向量的音乐
这三者都使用了预训练自监督模型，将音乐分类成有限、离散的描述范围，这三种方法分别将原始音波转换为512维、2048维和4800维的向量。

利用偏好的对比学习(CLEP)

在完成前端的特征提取——也就是音波的向量表示之后，本文介绍了三种利用不同条件对比学习的基于Siamese Neural Network（孪生神经网络）的音乐推荐模型：CLEP-PN、CLEP-P、CLEP-N
在这里插入图片描述分别是：

利用积极和消极偏好的对比学习模型，即将“喜欢-喜欢”、“不喜欢-不喜欢”视为正样本对
只利用积极偏好的对比学习模型，只将“喜欢-喜欢”视为正样本对
仅利用负性偏好的对比学习模型，“不喜欢-不喜欢”视为正样本对

siamese neural network的network1 和network2 是两个共享权值的网络，实际上就是两个完全相同的网络（如图1的俩MLP），siamese network的初衷是计算两个输入的相似度，左右两个神经网络分别将输入转换成一个"向量"，在新的空间中，通过判断向量之间的距离就能得到相似度，训练的目标是让两个相似的输入距离尽可能的小，两个不同类别的输入距离尽可能的大。

三种模型在item-pair"同一类/相似"的定义上进行了区分，传统的siamese neural network使用对比损失函数如下：
在这里插入图片描述
D是item对之间的距离，y=1当且仅当两个item对的标签符合上面三种情况的正样本对设置，最后训练好的结果就是属于同一类的item 的embedding离得更近，而属于不同类的项目embedding离得更远。

以这种对比学习的方式学到三种条件的歌曲的特征表示，此后再用于训练一个简单的分类器，以匹配每首歌的偏好，然后，对模型进行训练，使其适合单个用户，便能充分分析个人偏好的影响。

预测偏好

孪生神经网络中训练了两个共享参数的MLP层，以匹配用户喜欢还是不喜欢当前歌曲的ground truth，使用二元交叉熵损失(BCE损失)进行训练，然后用sigmoid函数最终计算偏好的概率。
（就只讲了这些）

三、Experiments

实验设置

前端音乐特征提取器，我们使用了 $CLMR^1$ 、 $MEE^2$ 和 $Jukebox^3$ 的公共预训练模型提取每首歌曲的特征向量，维数如表1所示。
每批使用CLEP训练16首歌曲，它具有MLP网络架构，分别为CLMR、MEE和Jukebox提供4、5和5层。偏好预测阶段的网络结构为3层MLP。使用Adam优化器对CLEP和偏好预测阶段进行训练，并安排学习率，使其在验证损失未减少时降低。CLEP训练20个epoch，学习率从0.01开始。偏好预测阶段训练30个epoch，学习率从0.001开始。
mono单声道 stereo立体声

用户偏好数据

从在线学生社区招募了24名没有听力问题的韩国志愿者，平均27岁。
他们被要求听200段音乐片段并回答问题是否喜欢每一首歌。由于用户对歌曲的熟悉程度确实会影响他们的偏好，因此我们从不同的类型中随机选择了40首歌曲，以减少类型偏见和对歌曲流行度的影响（包括了当今最流行的五种音乐类型——摇滚、EDM、嘻哈、流行和R&B，我们使用了Spotify API中提供的“获取推荐”功能，该功能可以在给定特定类型时返回曲目列表）
研究人员从每首歌中随机抽取了10秒的音乐片段，并按随机顺序分发给每位参与者。我们认为10秒的时间足以让参与者识别旋律，并决定他们对每首歌的偏好。在调查中，音乐片段以44.1kHz的采样率进行立体声通道，但在特征提取阶段进行了操作，以拟合每个特征提取模型（如表1）。通过调查，我们获得了每个参与者对200首歌曲的喜好。每个参与者都有不同的喜欢和不喜欢歌曲的比例——有些人更喜欢歌曲，而有些人更不喜欢歌曲。“喜欢的歌曲数”和“不喜欢的歌曲数”的平均比率为0.96:1，表明所有参与者的偏好没有偏差。

在200个单独的数据中，我们以3:1的比例将它们分为训练集和测试集。然后，我们用训练集训练模型，并评估它们在测试集上的表现。