机器学习——聚类算法的评分函数

张小鱼༒

于 2023-06-08 10:49:41 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习以及matlab和数据分析文章标签：聚类算法机器学习聚类算法分析函数 python

本文链接：https://blog.csdn.net/m0_56006701/article/details/131052626

版权

机器学习以及matlab和数据分析专栏收录该内容

24 篇文章 10 订阅

订阅专栏

系列文章目录

机器学习——随机森林算法、极端随机树和单颗决策树分类器对手写数字数据进行对比分析_极端随机森林算法

机器学习聚类算法——BIRCH算法、DBSCAN算法、OPTICS算法

机器学习集成学习——Adaboost分离器算法

机器学习之SVM分类器介绍——核函数、SVM分类器的使用

机器学习集成学习——GBDT（Gradient Boosting Decision Tree 梯度提升决策树）算法

机器学习的一些常见算法介绍【线性回归，岭回归，套索回归，弹性网络】

文章目录

系列文章目录

前言

1. 轮廓系数（Silhouette Coefficient）

2. Calinski-Harabasz指数（Calinski-Harabasz Index）

3. Davies-Bouldin指数（Davies-Bouldin Index）

1. 轮廓系数(Silhouette Coefficient)举例

2. Calinski-Harabasz指数举例

3. Davies-Bouldin指数举例

总结

前言

本文主要介绍聚类算法的评分函数，以及相关案例举例

聚类算法的评分函数用于评估聚类效果的好坏，一般来说，评分函数应该满足以下几个要求：

1. 对聚类结果进行客观、准确的评价；
2. 比较简单易懂，能够直观地反映聚类结果；
3. 对不同类型的数据集都适用。

以下是常见的聚类评分函数及其介绍：

聚类算法的评分函数通常用来衡量聚类结果的质量，以便于比较不同聚类算法的结果或调整聚类算法的参数。常见的聚类算法评分函数包括以下几种：

1. 轮廓系数（Silhouette Coefficient）

它是一种衡量聚类质量的指标，它衡量了每个点与其所属簇内其他点的相似度和与其最近的其他簇中的点的相似度之间的差异程度。轮廓系数的取值范围为[-1,1]，其值越大表示聚类结果越好。在MATLAB中，可以使用"silhouette"函数计算轮廓系数。

2. Calinski-Harabasz指数（Calinski-Harabasz Index）

它是一种基于方差分析的聚类评估指标，它衡量了聚类结果中簇与簇之间的分离程度和簇内部的紧密程度。Calinski-Harabasz指数的取值范围为[0,正无穷)，其值越大表示聚类结果越好。在MATLAB中，可以使用"evalclusters"函数计算Calinski-Harabasz指数。

3. Davies-Bouldin指数（Davies-Bouldin Index）

它是一种衡量聚类结果的紧密度和分离度的指标，它衡量了每个簇与其最相似的簇之间的差异程度。Davies-Bouldin指数的取值范围为[0,正无穷)，其值越小表示聚类结果越好。在MATLAB中，可以使用"daviesbouldin"函数计算Davies-Bouldin指数。

需要注意的是，不同的聚类算法适用的评分函数可能不同，因此需要根据具体问题选择合适的评分函数。同时，评分函数只是一种参考指标，不能完全代表聚类结果的质量，因此在实际应用中需要结合实际问题进行综合评估。

几个聚类评分函数使用Python代码实现。

1. 轮廓系数(Silhouette Coefficient)举例

轮廓系数用于评估聚类结果的紧密度和分离度，其值越接近1表示聚类效果越好。

from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans
import numpy as np
 
# 生成样本数据
X = np.random.rand(100, 2)
 
# 聚类
kmeans = KMeans(n_clusters=3, random_state=0).fit(X)
labels = kmeans.labels_
 
# 计算轮廓系数
score = silhouette_score(X, labels)
print("轮廓系数为：", score)

2. Calinski-Harabasz指数举例

Calinski-Harabasz指数用于评估聚类结果的分离度和紧密度，其值越高表示聚类效果越好。

from sklearn.metrics import calinski_harabasz_score
from sklearn.cluster import KMeans
import numpy as np
 
# 生成样本数据
X = np.random.rand(100, 2)
 
# 聚类
kmeans = KMeans(n_clusters=3, random_state=0).fit(X)
labels = kmeans.labels_
 
# 计算Calinski-Harabasz指数
score = calinski_harabasz_score(X, labels)
print("Calinski-Harabasz指数为：", score)

3. Davies-Bouldin指数举例

Davies-Bouldin指数用于评估聚类结果的分离度和紧密度，其值越小表示聚类效果越好。

from sklearn.metrics import davies_bouldin_score
from sklearn.cluster import KMeans
import numpy as np
 
# 生成样本数据
X = np.random.rand(100, 2)
 
# 聚类
kmeans = KMeans(n_clusters=3, random_state=0).fit(X)
labels = kmeans.labels_
 
# 计算Davies-Bouldin指数
score = davies_bouldin_score(X, labels)
print("Davies-Bouldin指数为：", score)

以上三个评分函数都可以用于评估聚类效果的好坏，但选择哪个评分函数作为评估标准需要根据具体的问题和数据集进行选择。

总结

以上就是今天的内容~

最后欢迎大家点赞👍，收藏⭐，转发🚀，
如有问题、建议，请您在评论区留言💬哦。

张小鱼༒

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习——聚类算法的评分函数

假设有一个数据集包含 $n$ 个点，每个点有 $m$ 个特征，现在需要将这些点分为 $k$ 个簇。其中，$a_i$ 表示数据点 $i$ 到其所属簇中所有其他点的平均距离，$b_i$ 表示数据点 $i$ 到距离它最近的其他簇中所有点的平均距离，轮廓系数的取值范围为 $[-1, 1]$，值越大则表示聚类效果越好。根据轮廓系数的取值范围，可以评估聚类效果的好坏。其中，$n$ 表示数据点总数，$k$ 表示聚类数目，CHI 的值越大则表示聚类效果越好。其中，$k$ 表示聚类数目，DBI 的值越小则表示聚类效果越好。
复制链接

扫一扫