【Silhouette Score】

wdwc2

已于 2025-03-12 19:15:20 修改

阅读量2.7k

点赞数

分类专栏：数学建模文章标签：算法机器学习 sklearn python scikit-learn

于 2023-08-23 11:20:33 首次发布

本文链接：https://blog.csdn.net/qq_66726657/article/details/132448416

版权

数学建模专栏收录该内容

105 篇文章

订阅专栏

本文介绍了SilhouetteScore，一种评估聚类效果的指标，它考虑了数据点内部紧密度和与其他簇分离度。Python中的sklearn.metrics.silhouette_score函数演示了如何计算和应用此指标来评价聚类结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

衡量聚类质量的指标

在机器学习中，聚类是一种将数据点分组到不同簇中的技术。但是，如何确定聚类的质量呢？这就引入了一个重要的指标——Silhouette Score。

什么是 Silhouette Score？

Silhouette Score 是一种衡量聚类结果质量的指标，它结合了聚类内部的紧密度和不同簇之间的分离度。对于每个数据点，Silhouette Score 考虑了以下几个因素：

a：数据点到同簇其他点的平均距离（紧密度）。
b：数据点到最近不同簇的平均距离（分离度）。

具体而言，Silhouette Score 计算为 (b - a) / max(a, b)。该值的范围在 -1 到 1 之间，越接近 1 表示数据点聚类得越好，越接近 -1 则表示聚类结果较差。

使用 `silhouette_score` 函数

在 Python 中，sklearn.metrics 模块提供了 silhouette_score 函数，用于计算 Silhouette Score。让我们来看看该函数的参数及其用法。

from sklearn.metrics import silhouette_score

# X 是特征矩阵，labels 是聚类结果的标签
score = silhouette_score(X, labels)
print("Silhouette Score:", score)

参数解释

X：特征矩阵，包含要进行聚类的数据点。
labels：聚类结果的标签，表示每个数据点属于哪个簇。

示例代码

假设我们有以下数据：

import numpy as np
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 生成样本数据
X, _ = make_blobs(n_samples=300, centers=4, random_state=0)

# 使用 KMeans 进行聚类
kmeans = KMeans(n_clusters=4, random_state=0)
labels = kmeans.fit_predict(X)

# 计算 Silhouette Score
score = silhouette_score(X, labels)
print("Silhouette Score:", score)