协同过滤基础——基线预测器(Baseline Predictors)

协同过滤基线预测器:原理与价值

引言

在构建协同过滤推荐系统时,研究者常聚焦于捕捉用户与物品之间的微妙互动偏好。然而,有一个容易被忽略的关键之处:观察到的评分差异,更多源于用户或物品本身的系统偏差,而非它们之间的独特互动

为了削弱这种偏差影响,我们需要为推荐系统提供了一个基础的、基准性的预测基准,来使推荐模型可以在这个基准之上捕捉用户与物品之间的具体交互偏好,从而得到更精准的推荐结果。我们把这种预测基准叫做基线预测器(Baseline Predictor,也称为偏差模型)

公式含义表

公式 含义
u u u 用户
i i i 物品
b u b_u bu 用户偏差
b i b_i bi 物品偏差
r u i r_{ui} rui 用户 u u u 对物品 i i i 的真是评分
K \mathcal{K} K = { ( u , i ) ∣ 真实评分 r u i 已经知道 } =\{(u,i)|真实评分 r_{ui} 已经知道\} ={(u,i)真实评分rui已经知道}
λ \lambda λ 用来控制正则化的强度,具体值通过交叉验证确定,随着这些常数的增大,正则化效果会逐渐增强。
R ( u ) R(u) R(u) 被用户 u u u 评分的所有物品集合
R ( i ) R(i) R(i) 对物品 i i i 评分的所有用户集合

一、系统性偏差的双重来源

在评分数据中,有两类固有偏差普遍存在,它们构成了基线预测的核心考量:

  • 用户偏差( b u b_u bu:反映用户的评分习惯倾向。例如,部分用户天生"宽容",对大多数物品的评分高于平均水平;而另一些用户则更为"严苛",评分普遍偏低。
  • 物品偏差( b i b_i bi:体现物品的固有受欢迎程度。例如,经典电影往往获得普遍好评,评分显著高于平均值;而质量平庸的物品则常被打低分。

这些偏差让我们看到的用户评分并不是真正的交互信息,他们会掩盖用户与物品间的真实交互信号,最终导致推荐模型出现偏差。因此我们需要基线预测器来对这些“噪声”进行建模,方便之后提取用户对物品真实的偏好程度。

二、基线预测器的核心公式

基线预测器 b u i b_{ui} bui 通过简洁的数学形式,将全局平均、用户偏差和物品偏差整合为一个基准评分:
b u i = μ + b u + b i b_{ui} = μ + b_u + b_i bui=μ+bu+bi

  • μ μ
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

诸葛思颖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值