聚类算法评价指标python实现_怎么理解聚类算法的评价指标Rand Index(RI)？

最新推荐文章于 2024-09-12 17:33:24 发布

weixin_39603117

最新推荐文章于 2024-09-12 17:33:24 发布

阅读量1.1k

点赞数

文章标签：聚类算法评价指标python实现

Rand Index是比较两个聚类结果的，也可以比较一个聚类算法的结果和真实分类情况。

Rand Index的想法是枚举样本中的所有的pair，然后看有多少个pair在聚类算法1和聚类算法2的情况是一致的。

比如说，有五个数据点，x是聚类1返回的结果，y是聚类2返回的结果

x:[1, 1, 2, 3, 3]

y:[2, 2, 3, 1, 2]

x[0, 1] = [1, 1]，在同一簇中

y[0, 1] = [2, 2]，也在同一簇中。

所以[0, 1]这一对在聚类1和聚类2中是一致的。

x[0, 2] = [1, 2]，不在同一簇中

y[0, 2] = [2, 3]，也不在同一簇中。

所以[0, 2]这一对在聚类1和聚类2中也是一致的。

如果有$n$个数据点，那么

$$\text{Rand Index}=\frac{\text{一致的对数}}{\frac{1}{2}n(n-1)}$$

分母上就是说$n$个数据点，一共有$\frac{1}{2}n(n-1)$个pair。

以上面的例子来说，Rand Index=0.7。因为一共有10对，其中3对不一致，分别是

x[0, 4]与y[0, 4]

x[1, 4]与y[1, 4]

x[3, 4]与y[3, 4]

很显然， Rand Index是0到1之间的数。如果是1，就表示两个聚类结果完全一样。SofaSofa数据科学社区DS面试题库 DS面经

Warning

您确定要删除本贴么？所有相关回复也会被一并删除并且无法恢复。

取消

确定删除

kidd23

2018-08-08 11:55

谢谢！

- huanx8t

2018-08-19 10:56

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39603117

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

[Python从零到壹] 十三.机器学习之聚类算法四万字总结全网首发（K-Means、BIRCH、树状聚类、MeanShift）

杨秀璋的专栏

07-06

1万+

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望

【Python机器学习】零基础掌握Clustering聚类算法性能评估方法

Mr数据杨

10-16

644

在聚类算法的性能评估中，有多种指标可供选择，每种都有其特定的应用场景、优缺点和性能开销。例如，肘部法则非常适用于确定最佳的聚类数，但可能需要多次运行算法。轮廓系数、Davies–Bouldin指数和Calinski-Harabasz指数则更多用于衡量聚类质量，但各有其优缺点和性能考虑。Fowlkes-Mallows指数、Rand指数、Jaccard系数和调整兰德指数通常用于有监督和无监督的聚类评估，其中调整兰德指数考虑了随机性，因此更为鲁棒。在进行聚类评估时，应根据具体需求和场景综合考虑这些指标。

参与评论您还未登录，请先登录后发表或查看评论

聚类算法评价指标python实现_聚类算法的评价指标

weixin_39815345的博客

12-03

2340

如果有了类别标签，那么聚类结果也可以像分类那样计算准确率和召回率。scikitlearn上说：“其实不应该将分类标签作为聚类结果的评价指标，除非你有相关的先验知识或某种假设，知道这种分类类内差距更小”。但是它还是给出了几种评价标准1. Adjusted Rand index1.1 原理及代码实现和分类中的acc类似，这是在计算样本预测值和真实值之间的相似度similarity：同属于这一类或都不属...

聚类评价指标 Rand Index,RI,Recall,Precision,F1

热门推荐

lixuemei504的专栏

12-17

3万+

详细说明在http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html 假设一个集合中有N篇文章一个集合中有N(N-1)/2个集合对 TP：同一类的文章被分到同一个簇 TN：不同类的文章被分到不同簇 FP：不同类的文章被分到同一个簇 FN：同一类的文章被分到不同簇 Rand Inde

The Rand index

zyp361161的博客

02-24

787

I’ve been looking for ways to compare clustering results and through my searching I came across something called the Rand index. In this short post, I explain how this index is calculated. From th...

聚类算法评价指标：RandIndex，matlab代码

03-11

聚类算法评价指标：RandIndex，matlab代码

Python机器学习——聚类的有效性指标

梦在硅谷的博客

07-18

7892

聚类有效性指标（Cluster Validity Index，CVI）用于度量聚类的效果。很显然，希望彼此相似的样本在一个簇，彼此不相似的样本尽量在不同的簇。也就是说：同一簇的样本彼此之间相似，不同簇之间的样本尽可能不同。聚类的性能指标分为两类：外部指标：该指标由聚类结果和某个参考模型进行比较而获得；内部指标：该指标由本身的聚类结果而得到，不利用任何参考模型；外部指标 ...

聚类算法评价指标python实现_[ML] 聚类评价指标

weixin_39681724的博客

02-05

2377

本文将介绍几个常见的聚类评价指标: Purity, NMI, RI, Precision(查准率), Recall(查全率), F, ARI, Accuracy(正确率).好的聚类算法,一般要求类簇具有：高的类内 (intra-cluster) 相似度 (documents within a cluster are similar)低的类间 (inter-cluster) 相似度 (documen...

聚类算法评价指标python实现_聚类算法及其评估指标

weixin_40008339的博客

12-03

2812

聚类(Clustering)-----物以类聚，人以群分。1.Finding groups of objectsObjects similar to each other are in the same groupObjects are different from those in other groups2.Unsupervised LearningNo labelsData driven3....

机器学习的评价指标-Rand index

努力努力再努力的博客

02-21

1万+

下面这篇博客中分类别介绍了很多机器学习方法的评价指标，比较全面： http://www.cnblogs.com/zhaokui/p/ml-metric.html 一、聚类结果的评价指标 1、Rand index 或者 Rand measure（兰德指数）维基百科比较详细：https://en.wikipedia.org/wiki/Rand_index 兰德指数需要给定实际类别信息C,假设K是聚...

matlab开发-AdjustedRandIndex

08-21

matlab开发-AdjustedRandIndex。计算调整后的随机指数

Rand index（兰德指数）原理以及numpy和pytorch实现

renwu

07-16

5422

什么是Rand指数关于Rand指数的定义我发现维基百科上总结得到位，我也就不再进行赘述，为了本文的完整性和以防国内打不开维基百科，我这里就当一次搬运工，当然有条件的还是建议去维基百科上去看原文~~ Rand Index The Rand index or Rand measure (named after William M. Rand) in statistics, and in particular in data clustering, is a measure of the similarity

兰德系数（Rand Index）

小秋在路上~

07-19

1万+

NOTE： 1、一个小案例说明兰德系数是如何怎么计算的。很详细！ 2、关于兰德系数的讨论：https://stats.stackexchange.com/questions/89030/rand-index-calculation 注意： +--------------------------------+--------------------------------------+ |...

聚类算法评价指标——adjusted Rand index, ARI指数(调整兰德指数)

weixin_46713695的博客

08-17

1万+

ARI指数(调整兰德指数)

十种聚类算法的完整Python操作示例

m0_59485658的博客

05-17

912

聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术，用于发现数据中的有趣模式，例如基于其行为的客户群。有许多聚类算法可供选择，对于所有情况，没有单一的最佳聚类算法。相反，最好探索一系列聚类算法以及每种算法的不同配置。在本教程中，你将发现如何在 python 中安装和使用顶级聚类算法。完成本教程后，你将知道：聚类是在输入数据的特征空间中查找自然组的无监督问题。对于所有数据集，有许多不同的聚类算法和单一的最佳方法。在 scikit-learn 机器学习库的 Python 中如何实现、适配和

调整兰德系数-评估聚类效果的指标

samoyan的博客,记录技术成长~

09-12

2421

调整兰德系数（Adjusted Rand Index, ARI）是一种用于评估聚类结果与真实标签之间相似度的指标。它在传统兰德系数（Rand Index, RI）的基础上进行了调整，考虑了随机聚类的期望值，因此能够更公平地评估聚类结果。

兰德系数、调整兰德系数

常回首

09-12

2万+

兰德系数（Rand index）调整兰德系数(Adjusted Rand index) 调整兰德系数（Adjusted Rand index）用于聚类模型的性能评估，但是其需要true_label,在正式介绍兰德系数之前，先介绍调整兰德系数的前身，兰德系数。兰德系数（Rand index）给定nnn个对象集合S={O1,O2,....,On}S={O1,O2,....,...

Python使用多种聚类方法并评估效果

梦想闹钟

03-29

656

Python使用多种聚类方法并评估效果

【Python机器学习】聚类算法任务，评价指标SC、DBI、ZQ等系数详解和实战演示（附源码图文解释）

showswoller的博客

12-17

5391

【Python机器学习】聚类算法任务，评价指标SC、DBI、ZQ等系数详解和实战演示（附源码图文解释）

解释该代码如何实现聚类指标计算

最新发布

12-06

该代码实现了K-means聚类算法，并计算了多个聚类性能指标。以下是关键步骤和聚类指标的计算方法： ### 1. K-means聚类算法 - **初始化质心**：从数据集中随机选择 `k` 个点作为初始质心。 - **分配簇**：计算数据点与质心之间的距离，并将数据点分配给最近的质心。 - **更新质心**：计算每个簇的新质心，即簇内数据点的均值。 - **迭代**：重复上述步骤直到质心不再显著变化或达到最大迭代次数。 ### 2. 聚类指标计算 - **真实标签和预测标签**：`labels_true` 是原始的真实标签，`labels_pred` 是 K-means 聚类后的预测标签。 - **标签编码**：如果真实标签是文本类型，将其转换为数字标签。 - **计算指标**： - **F-measure (F值)**：宏平均 F1 分数，衡量分类器的准确性和召回率的调和平均值。 - **Accuracy (ACC)**：准确性，表示正确分类的样本比例。 - **Normalized Mutual Information (NMI)**：归一化互信息，衡量两个聚类结果之间的相似性。 - **Rand Index (RI)**：兰德指数，衡量两个聚类结果之间的一致性。 - **Adjusted Rand Index (ARI)**：调整兰德指数，对兰德指数进行调整以考虑随机猜测的影响。 ### 代码实现 ```python def clustering_indicators(labels_true, labels_pred): if type(labels_true[0]) != int: labels_true = LabelEncoder().fit_transform(df[columns[len(columns) - 1]]) f_measure = f1_score(labels_true, labels_pred, average='macro') accuracy = accuracy_score(labels_true, labels_pred) normalized_mutual_information = normalized_mutual_info_score(labels_true, labels_pred) rand_index = rand_score(labels_true, labels_pred) ARI = adjusted_rand_score(labels_true, labels_pred) return f_measure, accuracy, normalized_mutual_information, rand_index, ARI ``` ### 3. 调用函数在主程序中，调用 `clustering_indicators` 函数计算聚类指标，并输出结果： ```python if __name__ == "__main__": k = 3 T = 100 n = len(dataset) epsilon = 1e-5 labels, centers = k_means(np.array(dataset), k, T, epsilon) F_measure, ACC, NMI, RI, ARI = clustering_indicators(original_labels, labels) print("各聚类指标如下所示：") print("F_measure:", F_measure, "ACC:", ACC, "NMI", NMI, "RI", RI, "ARI", ARI) ``` ### 总结该代码通过 K-means 算法对数据进行聚类，并计算了多种聚类性能指标，包括 F-measure、Accuracy、NMI、RI 和 ARI，这些指标帮助评估聚类结果的质量。