(论文阅读笔记1)Collaborative Metric Learning(一)（WWW2017）

最新推荐文章于 2024-06-06 01:19:18 发布

_Kevin_Duan_

最新推荐文章于 2024-06-06 01:19:18 发布

阅读量2.8k

点赞数 1

分类专栏：机器学习文章标签：推荐度量学习

本文链接：https://blog.csdn.net/chunyun0716/article/details/76473579

版权

机器学习专栏收录该内容

30 篇文章 12 订阅

订阅专栏

一、摘要

度量学习算法产生的距离度量捕获数据之间的重要关系。这里，我们将度量学习和协同过滤联系起来，提出了协同度量学习（CML），它可以学习出一个共同的度量空间来编码用户偏好和user-user 和 item-item的相似度。

二、背景

2.1 Metric Learning

令 $\chi = \{x_1, x_2,\dots, x_n\}$ 是空间 $\mathbb{R}^m$ 上的一个数据集。
相似对记为：

S = {(x i, x j) | x i 和 x j 被 认 为 是 相 似 的}

$\mathcal{S} = \{(x_i, x_j) | x_i 和 x_j 被认为是相似的\}$
非相似对记为：

D = {(x i, x j) | x i 和 x j 被 认 为 是 不 相 似 的}

$\mathcal{D} = \{(x_i, x_j) | x_i 和 x_j 被认为是不相似的\}$

最普通的度量学习方法采用的是马氏距离度量：

d A (x i, x j) = (x i - x j) T A (x i - x j) - - - - - - - - - - - - - - - - \sqrt

$d_A(x_i, x_j) = \sqrt{(x_i-x_j)^TA(x_i-x_j)}$
其中

A $A$ 是空间

Rm×m $\mathbb{R}^m\times m$ 上的半正定矩阵。这个式子将输入

x $x$ 映射到空间

Rm $\mathbb{R}^m$ 上，且满足一些期望的限制。有很多方法来创建这样一个距离，最常用的方法是全局法，来解决如下凸优化问题：

m i n A \sum (x i, x j) \in S d A (x i, x j) 2 s t . \sum (x i, x j) \in D d A (x i, x j) 2 \geq 1 a n d A \geq 0

$min_A \sum_{(x_i,x_j) \in \mathcal{S} } d_A(x_i, x_j)^2\\ st.\quad \sum_{(x_i,x_j) \in \mathcal{D} } d_A(x_i, x_j)^2 \ge 1 \quad and \quad A \ge 0$
还有其他一些方法，比如非线性转换函数，比如核函数和神经网络，可以提高度量的准确性。

2.2 Metric Learning for kNN

     上边的全局优化本质上式试图学习一种距离：它将相似的放在一起，将不相似的尽量分开。另一方面，如果学习到的度量被用作knn分类，只要保证目标与k个近邻共享一个类标就足够了。
     具体来说，给定一个输入 $x$ ,我们把离 $x$ 近的数据点作为它的target neighbors。并且假设 $x$ 的target neighbors构建了不同类标之间的边界。不同类标的输入侵入边界被作为importors。这里，学习的目标就是最小化importors的个数。
     一种为人知模型是LMNN，它使用2个损失函数来表达上述目标函数。
1. LMNN定义了pull loss：

L p u l l (d) = \sum j \to i d (x i, x j) 2

$\mathcal{L}_{pull}(d)=\sum_{j \to i}d(x_i,x_j)^2$
其中，

j $j$ 是

i $i$ 的target neighbor。
2. push loss：

L p u s h (d) = \sum i, j \to i \sum k (1 - y i k) [1 + d (x i, x j) 2 - d (x i, x k) 2] +

$\mathcal{L}_{push}(d)=\sum_{i,j \to i} \sum_k (1-y_{ik})[1+d(x_i,x_j)^2-d(x_i,x_k)^2]_+$
其中，如果

i $i$ 和

k $k$ 拥有同一个类标，则

yik=1 $y_{ik}=1$ ,否则，

yik=0 $y_{ik}=0$

[z]+=max(z,0) $[z]_+ = \max(z,0)$ .完整的损失函数是结合上述两个损失函数，可以通过半正定编程来进行优化。

2.3 Collaborative Filtering

这里重点关注隐性反馈的CF，传统的CF算法是基于用户相似计算出的。MF是一种流行的CF算法，普通的MF模型设计为用户的显性反馈，它是通过将users 和items映射到潜在因子空间上，那么user-item的关系可以通过潜在因子的乘积获得。
$r_{ij}$ 记为用户 $i$ 对item $j$ 的打分，用户向量 $\vec{u_i} \in \mathbb{R}^r$ 和item向量 $\vec{v_j} \in \mathbb{R}^r$ ,它们的乘积为 $\vec{u_i} ^T\vec{v_j}$ ,这个式子让最优化问题变为最小化集合上的均方误差：

min u *, v * \sum r i j \in K (r i j - u i \to T v j \to) 2 + λ u | | u i \to | | 2 + λ v | | v i \to | | 2

$\min_{u_*,v_*} \sum_{r_{ij}\in \mathcal{K}}(r_{ij}-\vec{u_i} ^T\vec{v_j})^2 + \lambda_{u}||\vec{u_i}||^2 + \lambda_{v}||\vec{v_i}||^2$
其中，

K $\mathcal{K}$ 是分数集合，

λu,λv $\lambda_{u}, \lambda_{v}$ 是

L2 $L^2$ 正则化的超参数。

隐性反馈(Implicit feedback)和贝叶斯个性(Bayesian personalized ranking)化排序略过，感兴趣的可以自己查询资料。

_Kevin_Duan_

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
(论文阅读笔记1)Collaborative Metric Learning(一)（WWW2017）

一、摘要度量学习算法产生的距离度量捕获数据之间的重要关系。这里，我们将度量学习和协同过滤联系起来，提出了协同度量学习（CML），它可以学习出一个共同的度量空间来编码用户偏好和user-user 和 item-item的相似度。二、背景2.1 Metric Learning 令χ={x1,x2,…,xn}\chi = \{x_1, x_2,\dots, x_n\}是空间Rm\mathb
复制链接

扫一扫