聚类算法效果衡量标准

最新推荐文章于 2023-03-26 17:42:01 发布

来路与归途

最新推荐文章于 2023-03-26 17:42:01 发布

阅读量4.1k

点赞数 1

分类专栏：算法思想

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42233538/article/details/100046777

版权

算法思想专栏收录该内容

13 篇文章 0 订阅

订阅专栏

1.SSE—误差平方和：每类中的点到对应质心的欧氏距离平方的和，值越小，聚类效果越好

与K值相关，只能取到确定k值的最优解，而不是全局最优解

求每类中的点到对应质心的距离的和

使用的函数：

scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=None, V=None, VI=None, w=None)，该函数用于计算两个输入集合的距离，通过metric参数指定计算距离的不同方式得到不同的距离度量值

实现功能：计算X与kmeans.cluster_centers_（每个类的质心坐标）欧氏距离的和

sum(np.min(cdist(X, kmeans.cluster_centers_, 'euclidean'), axis=1))

2.轮廓系数法（Silhouette Coefficient），越接近1，聚类效果越好

参考地址：https://sklearn.apachecn.org/docs/0.21.3/22.html?h=Silhouette

结合了聚类的凝聚度和分离度，用于评估聚类的效果

对于其中的一个点 i 来说：

计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)，称为凝聚度

计算 b(i) = min (i向量到与它相邻最近的一簇内的所有点的平均距离)，称为分离度

那么 i 向量轮廓系数就为：

可见轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优

将所有点的轮廓系数求平均，就是该聚类结果总的轮廓系数

使用的函数：

# 评估指标——轮廓系数,前者为所有点的平均轮廓系数，后者返回每个点的轮廓系数

from sklearn.metrics import silhouette_score, silhouette_samples

3.Calinski-Harabasz(CH)指标，S值越大，聚类效果

参考地址：https://sklearn.apachecn.org/docs/0.21.3/22.html?h=calinski_harabaz_score

对于簇，Calinski-Harabaz 得分是作为 between-clusters dispersion mean （簇间色散平均值）与 within-cluster dispersion（群内色散之间）的比值给出的:

$s(k) = \frac{\mathrm{Tr}(B_k)}{\mathrm{Tr}(W_k)} \times \frac{N - k}{k - 1}$

其中 B_K 是 between group dispersion matrix （组间色散矩阵）， W_K 是由以下定义的 within-cluster dispersion matrix （群内色散矩阵）:

$W_k = \sum_{q=1}^k \sum_{x \in C_q} (x - c_q) (x - c_q)^T$

$B_k = \sum_q n_q (c_q - c) (c_q - c)^T$

为数据中的点数， C_q 为 cluster （簇）中的点集， c_q 为 cluster（簇）的中心，为的中心， n_q 为 cluster（簇）中的点数。

使用的函数：

from sklearn.metrics import calinski_harabaz_score

来路与归途

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
聚类算法效果衡量标准

1.SSE—误差平方和：每类中的点到对应质心的欧氏距离平方的和，值越小，聚类效果越好与K值相关，只能取到确定k值的最优解，而不是全局最优解求每类中的点到对应质心的距离的和使用的函数：scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=None, V=None, VI=None, w=None)，该函数用于计算...
复制链接

扫一扫

专栏目录

来路与归途 CSDN认证博客专家 CSDN认证企业博客

码龄6年

245: 原创

18万+: 周排名

1万+: 总排名

35万+: 访问

: 等级

4697: 积分

98: 粉丝

205: 获赞

73: 评论

1219: 收藏

私信

关注

热门文章

分类专栏

面试 42篇
算法导论 25篇
pytorch 3篇
工程实践 11篇
Transformers 1篇
k-means
Canopy
搜索引擎 2篇
数据库 4篇
论文笔记 15篇
数据集 2篇
Tkinter 2篇
强化学习 1篇
GAN 2篇
CV2 1篇
随机数 3篇
python 62篇
tensorflow 31篇
机器学习 11篇
爬虫 1篇
算法思想 13篇
文件读取 3篇
numpy 1篇
3D点云 3篇
软件安装 3篇
Faster R-CNN 5篇

最新评论

tkinter窗口切换
m0_57781693: import tkinter as tk
tkinter窗口切换
m0_57781693: from tkinter import ttk
公交车-最短路径
CSDN-Ada助手: 如何使用模拟退火算法对复杂问题进行求解？
n个花园最少多少天完成种花
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
torch报错
小珑gg22mm: 不是叫你测试，是叫你怎么解决

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。