聚类精确度（Cluster Accuracy）

最新推荐文章于 2025-03-17 14:34:00 发布

Micheal超

最新推荐文章于 2025-03-17 14:34:00 发布

阅读量1.7w

点赞数 26

分类专栏： Scikit-learn Python 文章标签：聚类精确度 Cluster Acc

本文链接：https://blog.csdn.net/qq_42887760/article/details/105720735

版权

Python 同时被 2 个专栏收录

23 篇文章

订阅专栏

Scikit-learn

6 篇文章

订阅专栏

介绍：

聚类精确度(Cluster Accuracy，AC)用于比较获得标签和数据提供的真实标签：
$\frac{\sum_{i=1}^{n}\delta(s_i , map(r_i))}{N}$
其中： $r_i$ 为聚类后的标签。 $s_i$ 为真实标签。 $n$ 为数据总的个数。 $\delta$ 表示指示函数，具体如下：
$\delta(x,y) = \begin{cases} 1 & if x=y \\ 0 & otherwise \end{cases}$
而式中的map则表示最佳类标的重现分配，以确保统计的正确。一般的该最佳重分配可以通过匈牙利算法(Kuhn-Munkres or Hungarian Algorithm)实现，从而在多项式时间内求解该任务（标签）分配问题。

参考博客：[ML] 聚类评价指标

Python代码：

需要numpy和sklearn库。利用sklearn调用匈牙利算法
也可以直接调用scikit-learn库中的函数来计算metrics.accuracy_score(y_true, y_pred)

import numpy as np
from sklearn import metrics

def acc(y_true, y_pred):
    """
    Calculate clustering accuracy. Require scikit-learn installed
    # Arguments
        y: true labels, numpy.array with shape `(n_samples,)`
        y_pred: predicted labels, numpy.array with shape `(n_samples,)`
    # Return
        accuracy, in [0,1]
    """
    y_true = y_true.astype(np.int64)
    assert y_pred.size == y_true.size
    D = max(y_pred.max(), y_true.max()) + 1
    w = np.zeros((D, D), dtype=np.int64)
    for i in range(y_pred.size):
        w[y_pred[i], y_true[i]] += 1
    from sklearn.utils.linear_assignment_ import linear_assignment
    ind = linear_assignment(w.max() - w)
    return sum([w[i, j] for i, j in ind]) * 1.0 / y_pred.size


if __name__ == '__main__':
    # A为真实值、B,C,D为等效果的预测值 即: func(A,B)=func(A,C); func(B,D)=func(C,D);
    A = np.array([1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3])
    B = np.array([1, 2, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 1, 1, 3, 3, 3])
    C = np.array([2, 1, 2, 2, 2, 2, 2, 1, 1, 1, 1, 3, 2, 2, 3, 3, 3])  # 将B中的 1 与 2 互换
    D = np.array([1, 3, 1, 1, 1, 1, 1, 3, 3, 3, 3, 2, 1, 1, 2, 2, 2])  # 将B中的 2 与 3 互换

    # 测试
    print(acc(A, B))  # 0.7058823529411765
    print(acc(A, C))  # 0.7058823529411765
    print(metrics.accuracy_score(A, B))  # 0.7058823529411765
    print(acc(B, D))  # 1.0
    print(acc(C, D))  # 1.0