EMI Music Data Science Hackathon冠军团队的技术报告

最新推荐文章于 2018-04-12 19:37:00 发布

qq_20599123

最新推荐文章于 2018-04-12 19:37:00 发布

阅读量749

点赞数

分类专栏：个性化推荐 SGD 文章标签： hackathon 盛大创新院音乐

个性化推荐同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

SGD

6 篇文章 0 订阅

订阅专栏

摘要

这篇报告描述了2012EMI音乐数据科学Hackathon中排名第一的盛大创新院的音乐推荐算法思路。他们使用了分解机器（大致看了下好像就是矩阵分解模型）和线性回归来融合大量特征。他们使用了用户的年龄，性别，工作状态，地区等其他用户资料来对用户兴趣进行建模。他们还融合了用户对EMI音乐家的描述来提升预测精度。此外，他们使用了一种简单的集成方法和后处理策略来合成两个不同的预测器，以生成最终的结果。

引言

　　与传统推荐问题如Netflix竞赛相比，EMI的数据竞赛的复杂程度表现在两个方面：（1）用户和产品（音乐家）都有更为丰富的特征。例如在Words.csv中，用户对一些问题的回答表明了他们对EMI音乐家的熟悉度；此外用户还可以选择一些词来描述这些音乐家（类似于标签）（2）用户资料更为丰富，如年龄，性别，地区（这里选择的是英国的数据），工作的状态，听歌习惯（一些答案可以）。因此我们需要可以有效融合不同特征的模型，同样需要对这些特征进行有效的预处理。
　　本文使用了Factorization Machine和线性回归的方法。我们从训练数据中抽取了不同的特征融合到模型中。在对不同的特征预处理，使用一种基于随机梯度下降的训练框架来优化模型。我们构建了两种模型分别不同的特征的重要性，还使用了一种线性组合的方法集成这两个模型，使用后处理的策略以获得更高的精度。
　　本文结构如下：第二节介绍了我们使用的预处理方法，如何生成测试数据集；第三节提出了最终的模型；第四节和第五节提出了集成方法和后处理方法。

预处理方法

words.csv

　　这个表主要描述用户对音乐家的看法。团队用预处理手段将表征用户偏好转到[0,1]区间上。
　　首先合并“Good lyrics”栏目。
　　将“Like_Artist”栏映射到[0,1]区间内（除以100），删除所有缺失值。
　　“Heard_of”和“Own_artitist_music”栏目转换为离散值：如果用户给某个答案给了对应答案，将其转换为1。

用户

　　这个表是用户的个人文档，包括他们对音乐的态度。
　　对于音乐习惯问题，我们报了所有有效的评价，并将它们转换为[0,1]区间内。
　　对于年龄栏，保留所有有效值。
　　对于剩下的栏目，如“性别”，“工作”等将这些值转为离散值。

生成测试数据集

　　将train.csv按照75/25的比例随机分成训练集和测试集。在训练集上训练模型，在测试集上测试。

模型

　　符号我们用 $U$ 表示用户集合， $I$ 表示音乐集合（下文称之为产品）。用户数量和产品分别用 $|U|$ 和 $|I|$ 表示。用户和产品分别用 $u$ 和 $i$ 表示， $r_{ui}$ 表示用户 $u$ 对产品 $i$ 的偏好。所有评分构成一个 $|U| \times |I|$ 的评分矩阵 $R$ 。评分矩阵所有用户-产品评分集合数量为 $K$ 。

分解模型

　　有用户偏差和产品偏差的基准SVD模型定义如下：

r^u i = b u i + q T i p u (1)

$\hat{r}_{ui} = b_{ui} + q_i^T p_u (1)$
其中

pu $p_u$ 是一个d维的用户特征向量，

qi $q_i$ 是一个产品特征向量。d是预先设置的参数。偏差特征

bui $b_{ui}$ 定义如下：

b u i = μ + b u + b i (2)

$b_{ui} = \mu + b_u + b_i (2)$
在该公式中，参数

μ $\mu$ 大表整体评分均值，

bu $b_u$ 和

bi $b_i$ 分别表示用户和产品的评分偏差。这些参数可以通过求解下式得到：

min p *, q *, b * \sum (u, i) \in K (r u i - b u i - q T i p u) 2 + λ 1 ∥ p u ∥ 2 + λ 2 ∥ q i ∥ 2 + λ 3 b 2 u + λ 4 b 2 i (3)

$\min_{p_*,q_*,b_*} \sum_{(u,i) \in K} (r_{ui} - b_{ui} - q_i^T p_u)^2 + \lambda_1 \left \| p_u \right \|^2 + \lambda_2 \left \| q_i \right \|^2 + \lambda_3 b_u^2 + \lambda_4 b_i^2 (3)$

模型学习方法

　　随机梯度下降（SGD）是求解优化问题的有效方法。我们将预测误差表示为 $e_{ui}$ 。SGD基于下列方程更新参数：

b u \leftarrow b u + η (e u i - λ 1 b u) b i \leftarrow b i + η (e u i - λ 2 b i) q i \leftarrow q i + η (e u i p u - λ 3 q i) p u \leftarrow p u + η (e u i q i - λ 4 p u)

$\begin{equation} b_u \leftarrow b_u + \eta (e_{ui} - \lambda_1 b_u)\\ b_i \leftarrow b_i + \eta (e_{ui} - \lambda_2 b_i)\\ q_i \leftarrow q_i + \eta (e_{ui}p_u - \lambda_3 q_i)\\ p_u \leftarrow p_u + \eta (e_{ui}q_i - \lambda_4 p_u) \end{equation}$

线性回归

　　在统计学中，线性回归是对自变量X和因变量Y进行建模的方法。在线性回归中，我们使用线性预测函数对数据进行建模，从数据中估计出未知的模型参数。
　　这里我们使用线性回归方法整合用户信息和用户对音乐家的描述，然后我们可以将矩阵分解模型的预测值和线性回归的预测值进行结合以更好地建模。

r^u i = b u i + y u i + q T i p u (4)

$\hat{r}_{ui} = b_{ui} + y_{ui} + q_i^T p_u (4)$
$y_{ui}用下式定义：

y u i = \sum k β k \times X k u i (5)

$y_{ui} = \sum_k \beta_k \times X_{ui}^k (5)$
其中

{Xkui} $\left \{ X_{ui}^k \right \}$ 是words.csv和users.csv转换而来的特征值。
　　对于离散值，

Xkui $X_{ui}^k$ 要么为0，要么为1，如”性别”，”工作”；对于连续值如”like artist”和很多用户的习惯问题，

Xkui $X_{ui}^k$ 将被转换为0-1之间的连续值。对于年龄这一特征，我们将”age”属性上对应的值x转为一个新的值
　　

a g e u = {36 f l o o r (x / 2) i f x > = 72, i f 0 < x < 72 .

$age_u=\left\{\begin{array}{ll} 36&\text{$if$ $x >= 72$},\\ floor(x/2)&\text{$if$ $0< x <72$}. \end{array}\right.$
　　将等于36 的

Xkui $X_{ui}^k$ 的值设为1。
　　参数

βi $\beta_i$ 通过调整SGD更新过程学习（3.2）得到，对于每步，我们加上：

β k \leftarrow β k + η (e u i X k u i - λ 5 β k), \forall β k

$\beta_k \leftarrow \beta_k + \eta(e_{ui}X_{ui}^k - \lambda_5 \beta_k), \forall \beta_k$

集成

　　我们对两个模型的预测结果进行简单的求和平均。

后处理

　　该任务是预测用户有多大可能喜欢一首音乐。评分范围在[0,100]之间，所以如果我们的模型少于0或者大于100应该将其重新放到0-100之间。
　　对于每个用户，我们要减少预测评分与训练数据的评分分布的偏差。对于用户 $u$ ，我们发现训练数据中最小评分为 $s_u$ ，最大评分为 $l_u$ 。那么预测评分 $r_{ui}$ 转换为

r'^u i = ⎧ ⎩ ⎨ ⎪ ⎪ r^u i * 0.7 + s u * 0.3 r^u i * 0.7 + l u * 0.3 r^u i i f r^u i < s u - 5 i f r^u i > l u + 5 otherwise

$\hat{r'}_{ui}=\left\{\begin{array}{ll} \hat{r}_{ui} * 0.7 +s_u * 0.3 &\text{$if$ $\hat{r}_{ui} < s_u - 5$}\\ \hat{r}_{ui} * 0.7 +l_u * 0.3 &\text{$if$ $\hat{r}_{ui} > l_u + 5$}\\ \hat{r}_{ui} &\text{otherwise}\\ \end{array}\right.$
　

qq_20599123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EMI Music Data Science Hackathon冠军团队的技术报告

摘要引言预处理方法wordscsv用户生成测试数据集模型分解模型模型学习方法线性回归集成后处理摘要这篇报告描述了2012EMI音乐数据科学Hackathon中排名第一的盛大创新院的音乐推荐算法思路。他们使用了分解机器（大致看了下好像就是矩阵分解模型）和线性回归来融合大量特征。他们使用了用户的年龄，性别，工作状态，地区等其他用户资料来对用户兴趣进行建模。他们还融合了用户对EMI
复制链接

扫一扫

专栏目录