对数似然比相似度

最新推荐文章于 2025-06-11 18:04:04 发布

xidianycy

最新推荐文章于 2025-06-11 18:04:04 发布

阅读量2.2w

点赞数 5

CC 4.0 BY-SA版权

分类专栏：推荐系统文章标签：对数似然比相似度 mahout

本文链接：https://blog.csdn.net/u014374284/article/details/49823557

本文介绍了Mahout中对数似然比相似度的计算原理，通过一个实例展示了计算过程，包括行熵、列熵、矩阵熵的计算，并探讨了相似度的解释，以及从相关性的角度理解该相似度。通过对用户偏好商品集合的分析，揭示了用户之间的相似程度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在看mahout的相似性度量时，对其中的对数似然比相似度颇为好奇，由于书本上完全没有涉及到对数似然比相似度的计算原理，只是提供了一个函数接口，因此决定深入了解一下这个对数似然比相似度。下面mahout中的源码：

public static double logLikelihoodRatio(int k11, int k12, int k21, int k22) {
        double rowEntropy = entropy(k11, k12) + entropy(k21, k22);
        double columnEntropy = entropy(k11, k21) + entropy(k12, k22);
        double matrixEntropy = entropy(k11, k12, k21, k22);
        return 2 * (matrixEntropy - rowEntropy - columnEntropy);
    }

    public static double entropy(int... elements) {
        double sum = 0;
        for (int element : elements) {
            sum += element;
        }
        double result = 0.0;
        for (int x : elements) {
            if (x < 0) {
                throw new IllegalArgumentException(
                    "Should not have negative count for entropy computation: (" + x + ')');
            }
            int zeroFlag = (x == 0 ? 1 : 0);
            result += x * Math.log((x + zeroFlag) / sum);
        }
        return -result;
    }

我以一个实际的例子来介绍一下其中的计算过程：假设有商品全集I=｛a,b,c,d,e,f｝，其中A用户偏好商品{a,b,c}，B用户偏好商品{b,d}，那么有如下矩阵：

这里写图片描述

$k_{11}$ 表示用户A和用户B的共同偏好的商品数量，显然只有商品b，因此值为1
$k_{12}$ 表示用户A的特有偏好，即商品{a,c}，因此值为2
$k_{21}$ 表示用户B的特有偏好，即商品d，因此值为1
$k_{22}$ 表示用户A、B的共同非偏好，有商品{e,f}，值为2

此外我们还定义以下变量 $N=k_{11}+k_{12}+k_{21}+k_{22}$ ，即总商品数量。

计算步骤如下：

计算行熵

$r o w E n t r o p y = k 11 + k 12 N (k 11 k 11 + k 12 l o g k 11 k 11 + k 12 + k 12 k 11 + k 12 l o g k 12 k 11 + k 12) + k 21 + k 22 N (k 21 k 21 + k 22 l o g k 21 k 21 + k 22 + k 22 k 21 + k 22 l o g k 22$