论文解读——Scalable Collaborative Filtering with Jointly Derived Neighborhood Interpolation Weights
简介
本文是Bell和Koren在ICDM2007上的文章,其核心思想是
- 文章拟合了10多种评分数据集中可能存在的效应,对原始数据进行了修正,去除了噪声。
- 之前的相似度计算公式存在过于武断等问题,提出了一种可以通过损失函数迭代求解权重的方法。
- 基于用户的方法由于需要计算用户间的相似度,复杂度较高,作者提出了一种低维嵌入的方法,降低复杂度。
主要内容
1 CF可被视为一个缺失值估计任务,其中的KNN主要包括三个步骤:数据标准化、邻居选择和插值权重的计算,本文主要从数据标准化和插值权重的计算上提出新的方法,提高模型精度,对应于核心思想的1和2。
2 标准的KNN推荐在相似度上存在四个问题:
(1)相似度计算公式完全由人为提出,过于武断;
(2)相似度计算没有考虑邻居之间的相关关系,物品i和狮子王1、狮子王2、狮子王3之间的相似度可能会有较大差异;
(3)计算公式中强制让插值权重和为1,会导致过拟合,如一个物品只有很少的邻居,若依然才能该方法计算,会产生较大的误差;
(4)如果邻居间差异较大、相似度较小,该推荐方法不起作用。
3 Section3部分考虑了一些effect,就如 r = μ + p q r=\mu + pq r=μ+pq中就是考虑了overall mean。
4 Section4把通过求解 m i n ω ∑ v ≠ u ( r u i − ∑ j ∈ N ( i ; u ) ω i j r v j ) min_\omega \sum_{v \neq u}\left(r_{ui}-\sum_{j \in N(i;u)}\omega_{ij}r_{vj} \right) minω∑v=u(rui−∑j∈N(i;u)ωijrvj)这样一个优化问题来同时确定所有权重,之后再对稀疏的情况进行特殊的处理。