聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码

最新推荐文章于 2025-05-09 00:00:30 发布

技术宅zch

最新推荐文章于 2025-05-09 00:00:30 发布

阅读量9.2w

点赞数 74

分类专栏：机器学习文章标签：机器学习人工智能 python 聚类自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19672707/article/details/106857918

版权

轮廓系数

前言
是什么？
为什么？
- 由此可得：
怎么用？
不适用
示例

前言

在机器学习中，无监督学习算法中聚类算法算作相对重要的一部分算法。也常在低资源和无标注的情况下使用。
其中KMeans作为聚类算法中的一种，充当着重要的角色。由于其思想较为简单，易于理解和方便实现。所以经常被用来做数据的处理，在NLP领域常被用于文本聚类以及文本类别挖掘等方向。

但是KMeans算法有一个致命的缺点就是，如何选择K值。K值的选择至关重要，选择的好可以有较好的聚类效果。

通常情况下，K值的选择人们会根据先验的知识给定一个估计的值，或者是利用Canopy算法计算出一个大致的K值。更多的情况下，还是利用后验的方式进行K值的选择。也就是在给定K的范围[a,b]下，对不同的K值分别进行聚类操作，最终利用聚类效果的评价指标，来给出相应的最优聚类结果。这种评价聚类结果效果的指标有：误差平方和（Sum of the Squared Errors， SSE），轮廓系数（Silhouette Coefficient）和CH指标（Calinski-Harabaz）。

是什么？

轮廓系数，是用于评价聚类效果好坏的一种指标。可以理解为描述聚类后各个类别的轮廓清晰度的指标。其包含有两种因素——内聚度和分离度。

内聚度可以理解为反映一个样本点与类内元素的紧密程度。
分离度可以理解为反映一个样本点与类外元素的紧密程度。

为什么？

为什么轮廓系数可以评价聚类效果的好坏？怎样评价效果好坏？

轮廓系数的公式如下：
$\frac{b(i)-a(i)}{max\{a(i), b(i)\}}$

其中， $a (i)$ 代表样本点的内聚度，计算方式如下：
$\frac{1}{n-1}\sum_{j\ne i}^{n}distance(i,j)$

最低0.47元/天解锁文章

博客等级

码龄11年

79
原创

389
点赞

1133
收藏

89
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 词频矩阵TfidfVectorizer结果与稀疏矩阵csr_matrix的遍历

下一篇：: qt.qpa.screen: QXcbConnection: Could not connect to display localhost:18.0 Could not connect to any

最新评论

聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码
RealMoYe: 博主您好，“是什么”部分，分离度定义中“紧密”一词应该是“分离”？
TensorFlow1.x入门（5）——构建非线性回归模型
Drew�: np.linspace拼写错误啦，可以更正下，支持博主
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
新一代图书管理员の养成笔记: 对NN能记住100条数据中前50条和后50条的次序区别存疑：以MLP为例，它内部不存在可以记忆时间的结构，如果前50条和后50条的信息是一模一样的，输入MLP，也将得到一模一样的结果，而如果MLP能记住“第几条数据”这个信息，则不可能得到一模一样的结果，故MLP记不住第几条数据的信息
Python中yield的作用与for循环的区别，yield关键字的白话解析
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8006779, 请多输出高质量博客, 帮助更多的人
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
qiao_yx: 在处理数据集时，是否将不同类别的数据一起做shuffle或分开处理取决于具体的情况和任务要求。将所有数据一起做shuffle然后划分数据集：适用场景：当你希望保持数据的随机性，并且对类别的顺序不敏感时，可以将所有数据合并后进行shuffle，然后再划分成训练集、验证集和测试集等。示例：在一个分类任务中，如果不同类别的数据在训练集和测试集中的分布比例是一样的，那么可以将所有数据合并后进行shuffle。分开类别分别做对应的操作：适用场景：当你希望在数据集的划分或处理过程中保持类别的平衡时，可以先将不同类别的数据分开，然后分别进行shuffle和处理。示例：在一个分类任务中，如果你希望训练集和测试集中的每个类别的样本数量保持大致相等，那么可以先将数据按类别分开，然后分别shuffle，最后再合并成训练集和测试集。具体选择哪种方式取决于任务的要求和数据集的性质。在实践中，可以根据具体情况灵活选择合适的方法。无论选择哪种方式，都要保证数据集的划分和处理是公平、合理的，以保证模型训练和评估的可靠性。

大家在看

最新文章

目录

展开全部

收起

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。