Hoeffding不等式剪枝方法

    在基于物品的协通过滤算法中,当用户历史行为数据有很多时,对计算会有很大挑战,对此可以使用剪枝对数据进行化简来达到减少计算量。
    不是每个物品对都需要进行增量计算。对于两个物品的相似度,每次更新都能够得到一个新的相似度,这个新的相似度可以看做是一个随机变量,那么这个随机变量就有一个期望值。一旦物品之间的相似度可以以较高的置信度确认,它已经在期望值附近小幅度波动,就没必要再去更新了。如果进一步确定是一个比较小的相似度,甚至可以之间去掉这个物品对,其相似度不再参与计算更新。
对于确定这个物品什么时候不用再更新就可以用到Hoeffding不等式。Hoeffding不等式又称为霍夫丁不等式。该不等式给出了随机变量的和与其期望值偏差的概率上限
x ^ = 1 n ( x 1 + . . . . + x n ) \hat{x}= \frac{1}{n}(x_1+....+x_n) x^=n1(x1+....+xn)
p ( x ^ − E [ x ^ ≥ ϵ ] ) ≤ e − 2 n ϵ 2 p(\hat{x}-E[\hat{x}\geq\epsilon])\leq e^{-2n\epsilon^2} p(x^E[x^ϵ])e2nϵ2
    不等式中 x ^ \hat{x} x^是随机变量X的n个样本的均值, E [ x ^ ] E[\hat{x}] E[x^]是随机变量X的期望值。Hoeffding不等式反应的是:随机变量的真实期望值不会超过 x ^ + ϵ \hat{x}+\epsilon x^+ϵ的概率是 1 − δ 1-\delta 1δ,其中 ϵ \epsilon ϵ就是与真实相似度的误差, ϵ \epsilon ϵ δ \delta δ及n之间的关系是:
ϵ = l n ( 1 δ ) 2 n \epsilon = \sqrt{\frac{ln(\frac{1}{\delta})}{2n}} ϵ=2nln(δ1)
    Hoeffding不等式适用于有界的随机变量。 x ^ \hat{x} x^在实时推荐系统中就是历次更新得到的相似度平均值,公式中的n是相似度的更新次数。这样一来,选定了 δ \delta δ ϵ \epsilon ϵ之后就可以知道多少次后就能够逼近相似度期望值。假设 δ = 0.05 \delta=0.05 δ=0.05
    那么有

与真实相似度误差最少更新次数
0.1150
0.05600
0.0114979

    有了上面的表那么在一个物品对的更新次数已经达到最少更新次数时,且满足相似度误差时就可以不用再更新了。

参考:推荐系统: 关键模块 陈开江

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一杯拿铁go

你的打赏是我更新最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值