聚类效果评价——Silhouette Coefficient（轮廓系数）——内部评估标准（1）

呆萌的代Ma

已于 2022-05-25 14:49:14 修改

阅读量2.3k

点赞数 3

分类专栏：数据分析文章标签：聚类

于 2021-06-04 09:28:13 首次发布

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/117549037

版权

数据分析专栏收录该内容

14 篇文章 1 订阅

订阅专栏

公式与简介

Rousseeuw, Peter J. “Silhouettes: a graphical aid to the interpretation and validation of cluster analysis.” Journal of computational and applied mathematics 20 (1987): 53-65.

公式： $\frac{b - a}{max(a, b)}$

a表示：这个样本在同类中的平均距离

b表示：这个样本在离它最近的另一个类中的平均距离

代码实现

import pandas as pd
import numpy as np
from sklearn import metrics
from sklearn.cluster import KMeans

dataframe = pd.DataFrame(data=np.random.randint(0, 50, size=(200, 10)))
# 以kmeans聚类方法为例
kmeans_model = KMeans(n_clusters=3, random_state=1).fit(dataframe)
labels = kmeans_model.labels_
# 计算指标
score = metrics.silhouette_score(dataframe, labels, metric='euclidean')
print(score)