文章目录
引言
在构建协同过滤推荐系统时,研究者常聚焦于捕捉用户与物品之间的微妙互动偏好。然而,有一个容易被忽略的关键之处:观察到的评分差异,更多源于用户或物品本身的系统偏差,而非它们之间的独特互动。
为了削弱这种偏差影响,我们需要为推荐系统提供了一个基础的、基准性的预测基准,来使推荐模型可以在这个基准之上捕捉用户与物品之间的具体交互偏好,从而得到更精准的推荐结果。我们把这种预测基准叫做基线预测器(Baseline Predictor,也称为偏差模型)。
公式含义表
| 公式 | 含义 |
|---|---|
| u u u | 用户 |
| i i i | 物品 |
| b u b_u bu | 用户偏差 |
| b i b_i bi | 物品偏差 |
| r u i r_{ui} rui | 用户 u u u 对物品 i i i 的真是评分 |
| K \mathcal{K} K | = { ( u , i ) ∣ 真实评分 r u i 已经知道 } =\{(u,i)|真实评分 r_{ui} 已经知道\} ={(u,i)∣真实评分rui已经知道} |
| λ \lambda λ | 用来控制正则化的强度,具体值通过交叉验证确定,随着这些常数的增大,正则化效果会逐渐增强。 |
| R ( u ) R(u) R(u) | 被用户 u u u 评分的所有物品集合 |
| R ( i ) R(i) R(i) | 对物品 i i i 评分的所有用户集合 |
一、系统性偏差的双重来源
在评分数据中,有两类固有偏差普遍存在,它们构成了基线预测的核心考量:
- 用户偏差( b u b_u bu):反映用户的评分习惯倾向。例如,部分用户天生"宽容",对大多数物品的评分高于平均水平;而另一些用户则更为"严苛",评分普遍偏低。
- 物品偏差( b i b_i bi):体现物品的固有受欢迎程度。例如,经典电影往往获得普遍好评,评分显著高于平均值;而质量平庸的物品则常被打低分。
这些偏差让我们看到的用户评分并不是真正的交互信息,他们会掩盖用户与物品间的真实交互信号,最终导致推荐模型出现偏差。因此我们需要基线预测器来对这些“噪声”进行建模,方便之后提取用户对物品真实的偏好程度。
二、基线预测器的核心公式
基线预测器 b u i b_{ui} bui 通过简洁的数学形式,将全局平均、用户偏差和物品偏差整合为一个基准评分:
b u i = μ + b u + b i b_{ui} = μ + b_u + b_i bui=μ+bu+bi
- μ μ
协同过滤基线预测器:原理与价值

最低0.47元/天 解锁文章
3197

被折叠的 条评论
为什么被折叠?



