协同过滤基础——基线预测器（Baseline Predictors）

协同过滤基线预测器：原理与价值

最新推荐文章于 2025-12-03 17:03:32 发布

原创

最新推荐文章于 2025-12-03 17:03:32 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

引言

在构建协同过滤推荐系统时，研究者常聚焦于捕捉用户与物品之间的微妙互动偏好。然而，有一个容易被忽略的关键之处：观察到的评分差异，更多源于用户或物品本身的系统偏差，而非它们之间的独特互动。

为了削弱这种偏差影响，我们需要为推荐系统提供了一个基础的、基准性的预测基准，来使推荐模型可以在这个基准之上捕捉用户与物品之间的具体交互偏好，从而得到更精准的推荐结果。我们把这种预测基准叫做基线预测器（Baseline Predictor，也称为偏差模型）。

公式	含义
$u$	用户
$i$	物品
$b_u$	用户偏差
$b_i$	物品偏差
$r_{ui}$	用户 $u$ 对物品 $i$ 的真是评分
$\mathcal{K}$	${(u,i)\|真实评分 r_{ui} 已经知道\}$
$\lambda$	用来控制正则化的强度，具体值通过交叉验证确定，随着这些常数的增大，正则化效果会逐渐增强。
$R (u)$	被用户 $u$ 评分的所有物品集合
$R (i)$	对物品 $i$ 评分的所有用户集合

在评分数据中，有两类固有偏差普遍存在，它们构成了基线预测的核心考量：

用户偏差（ $b_u$ ）：反映用户的评分习惯倾向。例如，部分用户天生"宽容"，对大多数物品的评分高于平均水平；而另一些用户则更为"严苛"，评分普遍偏低。
物品偏差（ $b_i$ ）：体现物品的固有受欢迎程度。例如，经典电影往往获得普遍好评，评分显著高于平均值；而质量平庸的物品则常被打低分。