无敌的Log-Likelihood Ratio(1)——LLR的计算方式


   T e d    D u n n i n g Ted\; Dunning TedDunning 《 A c c u r a t e    M e t h o d s    f o r    t h e    S t a t i s t i c s    o f    S u r p r i s e    a n d    C o i n c i d e n c e 》 《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》 AccurateMethodsfortheStatisticsofSurpriseandCoincidence中介绍了 L o g − L i k e h o o d    R a t i o Log-Likehood\; Ratio LogLikehoodRatio在文本计算中的基本使用。 L L R LLR LLR因为实现简单、有效并且具有大规模数据上的可扩展性,能够被很好的使用到工业系统中。因此基于 L L R LLR LLR的相似度度量广泛应用在推荐系统等多种应用当中。
  在这篇Blog中,我们忽略 《 A c c u r a t e    M e t h o d s    f o r    t h e    S t a t i s t i c s    o f    S u r p r i s e    a n d    C o i n c i d e n c e 》 《Accurate\; Methods\; for\; the\; Statistics\; of\; Surprise\; and\; Coincidence》 AccurateMethodsfortheStatisticsofSurpriseandCoincidence中对 L L R LLR LLR过多的冗余描述,主要集中的去关注 L L R LLR LLR的计算方式和现有的一些简单有效的代码实现。
  本篇博客的组织方式如下。在章节1中,以最简单的方式讨论了 L o g − L i k e l i h o o d    R a t i o Log-Likelihood\; Ratio LogLikelihoodRatio相似度的计算方式,在章节2中讨论了 L o g − L i k e l i h o o d    R a t i o Log-Likelihood\; Ratio LogLikelihoodRatio的具体的代码实现,以及一些可以现用的相似度计算工具。

1. LLR的计算方式

  在计算两个事件(例如推荐系统中的点击行为)的 L L R LLR LLR值来做相似度衡量的时候,我们通过两个事件的计数来计算事件之间的相似度。接下来我们以推荐系统中物品相似度的计算为例来介绍 L L R LLR LLR的计算方式。
  有两个物品分别为物品 i i i和物品 j j j。对应事件计数的简单形式化描述如下:
k 11 k_{11} k11:表示同时浏览了物品 i i i和物品 j j j的用户。
k 12 k_{12} k12:表示浏览了物品 i i i,但是没有浏览物品 j j j的用户。
k 21 k_{21} k21:表示浏览了物品 j j j,但是没有浏览物品 i i i的用户。
k 22 k_{22} k22:表示没有浏览物品 i i i,并且没有浏览物品 j j j的用户。
根据上述,我们可以得到如下的一个表格:

事件浏览 I t e m    i Item\;i Itemi没有浏览 I t e m    i Item\;i Itemi
浏览 I t e m    j Item\; j Itemj k 11 k_{11} k11 k 21 k_{21} k21
没有浏览 I t e m    j Item\;j Itemj k 12 k_{12} k12 k 22 k_{22} k22

I t e m    i Item\; i Itemi I t e m    j Item\;j Itemj L L R LLR LLR计算公式如下:
S = 2 × ( H m − H c − H r ) S=2\times (H_m - H_c - H_r) S=2×(HmHcHr)
其中:
H m H_m Hm表示上述矩阵的矩阵熵,总体的计算公式如下:
H m = − ( k 11 N    l o g ( k 11 N ) + k 12 N    l o g ( k 12 N ) + k 21 N    l o g ( k 21 N ) + k 22 N    l o g ( k 22 N ) ) H_m = - (\frac{k_{11}}{N}\;log(\frac{k_{11}}{N}) + \frac{k_{12}}{N}\;log(\frac{k_{12}}{N}) + \frac{k_{21}}{N}\;log(\frac{k_{21}}{N}) + \frac{k_{22}}{N}\;log(\frac{k_{22}}{N})) Hm=(Nk11log(Nk11)+Nk12log(Nk12)+Nk21log(Nk21)+Nk22log(Nk22))
H r H_r Hr表示每行相加计算得到的信息熵,相关的具体计算公式如下:
H r = − ( k 11 + k 12 N    l o g ( k 11 + k 12 N ) + k 21 + k 22 N l o g ( k 21 + k 22 N ) ) H_r = -(\frac{k_{11} + k_{12}}{N}\; log(\frac{k_{11}+k_{12}}{N}) +\frac{k_{21} + k_{22}}{N}log(\frac{k_{21} + k_{22}}{N})) Hr=(Nk11+k12log(Nk11+k12)+Nk21+k22log(Nk21+k22))
H c H_c Hc表示矩阵的每一列相加计算得到的信息熵,相关的具体计算公式如下:
H c = − ( k 11 + k 21 N    l o g ( k 11 + k 21 N ) + k 21 + k 22 N l o g ( k 21 + k 22 N ) ) H_c=-(\frac{k_{11} + k_{21}}{N}\; log(\frac{k_{11}+k_{21}}{N}) +\frac{k_{21} + k_{22}}{N}log(\frac{k_{21} + k_{22}}{N})) Hc=(Nk11+k21log(Nk11+k21)+Nk21+k22log(Nk21+k22))

其中 N = k 11 + k 12 + k 21 + k 22 N=k_{11} + k_{12} + k_{21} + k_{22} N=k11+k12+k21+k22

2. LLR的代码实现

  在 M a h o u t Mahout Mahout m a t h math math库中定义了 L o g L i k e l i h o o d LogLikelihood LogLikelihood类,实现了 L L R LLR LLR的计算,其中具体的计算代码在下面给出。

  • r o w E n t r o p y rowEntropy rowEntropy的计算方式如下
private static double xLogX(long x) {
    return x == 0 ? 0.0 : x * Math.log(x);
  }
private static double entropy(long a, long b) {
    return xLogX(a + b) - xLogX(a) - xLogX(b);
  }

其中 a = k 11 + k 12 a=k_{11} + k_{12} a=k11+k12并且 b = k 21 + k 22 b=k_{21} + k_{22} b=k21+k22,综合得到
r o w E n t r o p y = ( N × l o g    ( N ) − ( k 11 + k 12 ) × l o g    ( k 11 + k 12 ) − ( k 21 + k 22 ) × l o g    ( k 21 + k 22 ) )    = − ( ( k 11 + k 12 ) × l o g    ( N ) − ( k 11 + k 12 ) × l o g    ( k 11 + k 12 ) + ( k 21 + k 22 ) × l o g    ( N ) − ( k 21 + k 22 ) × l o g    ( k 21 + k 22 ) )    = − ( ( k 11 + k 12 ) × ( l o g ( N ) − l o g ( k 11 + k 12 ) ) + ( k 21 + k 22 ) × ( l o g ( N ) − l o g ( k 21 + k 22 ) ) )    = ( k 11 + k 12 ) × ( l o g    k 11 + k 12 N ) + ( k 21 + k 22 ) × ( l o g    k 21 + k 22 N ) = − H r × N rowEntropy = (N \times log\;(N) - (k_{11} + k_{12}) \times log\;(k_{11} + k_{12}) -(k_{21} + k_{22} )\times log\;(k_{21} + k_{22})) \\ \;\\ = -((k_{11}+k_{12})\times log\;(N)-(k_{11} + k_{12}) \times log\;(k_{11} + k_{12}) + (k_{21} + k_{22}) \times log\;(N) - (k_{21} + k_{22} )\times log\;(k_{21} + k_{22})) \\ \;\\ =-((k_{11} + k_{12}) \times(log(N)-log(k_{11}+k_{12})) + (k_{21} + k_{22}) \times(log(N)-log(k_{21}+k_{22})))\\ \;\\ =(k_{11} +k_{12}) \times(log\;\frac{k_{11} + k_{12}}{N}) + (k_{21} + k_{22}) \times(log\;\frac{k_{21} + k_{22}}{N}) = - H_r \times N rowEntropy=(N×log(N)(k11+k12)×log(k11+k12)(k21+k22)×log(k21+k22))=((k11+k12)×log(N)(k11+k12)×log(k11+k12)+(k21+k22)×log(N)(k21+k22)×log(k21+k22))=((k11+k12)×(log(N)log(k11+k12))+(k21+k22)×(log(N)log(k21+k22)))=(k11+k12)×(logNk11+k12)+(k21+k22)×(logNk21+k22)=Hr×N



  • 同样的 c o l E n t r o p y colEntropy colEntropy的计算方式如下:
    c o l E n t r o p y = ( k 11 + k 21 ) × ( l o g    k 11 + k 21 N ) + ( k 12 + k 22 ) × ( l o g    k 12 + k 22 N ) = − H c × N colEntropy = (k_{11} +k_{21}) \times(log\;\frac{k_{11} + k_{21}}{N}) + (k_{12} + k_{22}) \times(log\;\frac{k_{12} + k_{22}}{N}) = -H_c \times N colEntropy=(k11+k21)×(logNk11+k21)+(k12+k22)×(logNk12+k22)=Hc×N


  • m a t r i x E n t r o p y matrixEntropy matrixEntropy的计算方式
private static double entropy(long a, long b, long c, long d) {
    return xLogX(a + b + c + d) - xLogX(a) - xLogX(b) - xLogX(c) - xLogX(d);
  }

m a t r i x E n t r o p y = N × l o g    ( N ) − k 11    l o g ( k 11 ) − k 12    l o g ( k 12 ) − k 21    l o g    ( k 21 ) − k 22    l o g ( k 22 )    = − ( k 11 × l o g    ( k 11 N ) + k 12 × l o g    ( k 12 N ) + k 21 × l o g    ( k 21 N ) ) + k 21 × l o g    ( k 21 N ) ) × N matrixEntropy= N\times log\;(N) - k_{11}\;log(k_{11}) -k_{12}\;log(k_{12}) - k_{21}\;log\;(k_{21}) - k_{22}\;log(k_{22}) \\ \;\\ = - (k_{11}\times log\;(\frac{k_{11}}{N})+k_{12}\times log\;(\frac{k_{12}}{N}) + k_{21}\times log\;(\frac{k_{21}}{N})) + k_{21}\times log\;(\frac{k_{21}}{N})) \times N matrixEntropy=N×log(N)k11log(k11)k12log(k12)k21log(k21)k22log(k22)=(k11×log(Nk11)+k12×log(Nk12)+k21×log(Nk21))+k21×log(Nk21))×N



  • 最终相似度 S S S的计算结果
public static double logLikelihoodRatio(long k11, long k12, long k21, long k22) {
    Preconditions.checkArgument(k11 >= 0 && k12 >= 0 && k21 >= 0 && k22 >= 0);
    // note that we have counts here, not probabilities, and that the entropy is not normalized.
    double rowEntropy = entropy(k11 + k12, k21 + k22);
    double columnEntropy = entropy(k11 + k21, k12 + k22);
    double matrixEntropy = entropy(k11, k12, k21, k22);
    if (rowEntropy + columnEntropy < matrixEntropy) {
      // round off error
      return 0.0;
    }
    return 2.0 * (rowEntropy + columnEntropy - matrixEntropy);
  }

S = 2 × ( r o w E n t r o p y + c o l E n t r o p y − m a t r i x E n t r o p y ) = 2 × ( − H r N − H c N + H m N ) = 2 N ( H m − H r − H c ) S= 2 \times(rowEntropy + colEntropy - matrixEntropy) = 2 \times (- \frac{H_r}{N} - \frac{H_c}{N} + \frac{H_m}{N}) = \frac{2}{N}(H_m - H_r - H_c) S=2×(rowEntropy+colEntropymatrixEntropy)=2×(NHrNHc+NHm)=N2(HmHrHc)

在代码实现里面相似度的计算过程中把 N N N约掉了,所以在 m a h o u t mahout mahout计算当中实际计算得到的值为
S = 2 N ( H m − H r − H c ) S=\frac{2}{N}(H_m - H_r - H_c) S=N2(HmHrHc)

3 相关疑问

问题 1: 在代码的计算过程中,约掉分母 N N N对整个结果有影响嘛?
问题 2: 在有些博客资料中称 H r H_r Hr为行熵,称 H c H_c Hc为列熵,并且计算公式不如下:
博客相关资料截图
这种方式和我上面描述的计算方式等价嘛?那种更准确?

欢迎大家留言讨论,如果有问题或者建议的地方希望大家能够提出再核对问题后我会在第一时间进行修正。

4 参考资料

【1】LLR (Log-Likelihood Ratio) used for recommendations
【2】Accurate Methods for the Statistics of Surprise and Coincidence
【3】Building a Correlated Cross-Occurrence (CCO) Recommenders with the Mahout CLI
【4】github · Mathout LogLikelihood Similarity
【5】Surprise and Coincidence
【6】loglikelihood ratio 相似度

  • 4
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值