样本轮廓系数（原理、sklearn.metrics.silhouette_score、silhouette_samples参数介绍）

置顶鲨鱼辣椒不吃辣c

已于 2023-08-24 21:28:39 修改

阅读量5.3w

点赞数 65

文章标签：机器学习 python 算法人工智能

于 2020-12-01 22:24:11 首次发布

本文链接：https://blog.csdn.net/maple05/article/details/110454075

版权

一、轮廓系数含义：

轮廓系数（Silhouette Coefficient），是聚类效果好坏的一种评价方式。

最佳值为1，最差值为-1。接近0的值表示重叠的群集。负值通常表示样本已分配给错误的聚类，因为不同的聚类更为相似

1）对于簇中的每个向量，分别计算它们的轮廓系数。

对于其中的一个点 i 来说：

计算簇内不相似度a(i) ：i向量到同簇内其他点不相似程度的平均值，体现凝聚度

计算簇间不相似度b(i) ：i向量到其他簇的平均不相似程度的最小值，体现分离度

那么第i个对象的轮廓系数就为：

$\large S(i)=\frac{b(i)-a(i)}{max\{{a(i),b(i)}\}}$

所有样本的s i 的均值称为聚类结果的轮廓系数，定义为S，是该聚类是否合理、有效的度量。聚类结果的轮廓系数的取值在【-1,1】之间，值越大，说明同类样本相距约近，不同样本相距越远，则聚类效果越好。

详细参考scikit-learn官网

此函数返回所有样本的平均轮廓系数。要获取每个样本的值，请使用silhouette_samples

sklearn.metrics.silhouette_score(X, labels, metric='euclidean', sample_size=None, random_state=None)

参数	X：数组[n_samples_a，n_samples_a]（如果metric ==“ precomputed”），否则为[n_samples_a，n_features] 样本之间的成对距离数组或特征数组。
	labels：数组，形状= [n_samples] 每个样品的预测标签。
	metric ：计算要素阵列中实例之间的距离时使用的度量。默认是euclidean（欧氏距离）。如果metric是字符串，则必须是允许的选项之一metrics.pairwise.pairwise_distances。如果X是距离数组本身，请使用metric="precomputed"。
return	样本平均轮廓系数

此函数返回所有样本的轮廓系数。

sklearn.metrics.silhouette_samples(X, labels, etric='euclidean')

参数	X：数组[n_samples_a，n_samples_a]（如果metric ==“ precomputed”），否则为[n_samples_a，n_features] 样本之间的成对距离数组或特征数组。
	labels：数组，形状= [n_samples] 每个样品的预测标签。
	metric ：计算要素阵列中实例之间的距离时使用的度量。默认是euclidean（欧氏距离）。如果metric是字符串，则必须是允许的选项之一metrics.pairwise.pairwise_distances。如果X是距离数组本身，请使用metric="precomputed"。
return	每个样本的轮廓系数