机器学习与数据挖掘学习笔记（3）聚类

最新推荐文章于 2023-08-05 14:53:14 发布

小唐要努力

最新推荐文章于 2023-08-05 14:53:14 发布

阅读量1k

点赞数

分类专栏：机器学习与数据挖掘文章标签：聚类机器学习数据挖掘 k均值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39478524/article/details/109343935

版权

目录

一、聚类的定义

二、模型的性能度量

三、常见的聚类算法

五、层次聚类法

六、基于密度的聚类方法

一、聚类的定义

聚类就是将大量未知标注的数据集按照数据本身的特点将数据集划分为多个类别，使得类内的样本尽可能地相似，类间地样本尽可能地不同。

之前我们学习过的分类和回归问题都是有监督问题，给的训练集都是有标记的样本；而聚类问题则是无监督问题，训练集的样本都是无标记的。

二、模型的性能度量

为了能够分辨不同聚类模型的性能好坏，我们需要确定一些指标来评价我们得到的模型。

聚类性能指标一般有如下指标：

1、准确率

$Acc=\frac{N_{cor}}{N}$

其中 $N_{cor}$ 代表正确聚类的数据个数，N代表数据的总个数

2、纯度

$Purity(\Omega,C)=\frac{1}{N}\sum_k\mathop{\mathbb{\max}}\limits_{j}|\omega_k\cap c_j|$

其中N代表数据的总个数， $\omega_k$ 代表第k个聚类簇， $C=\{c_1,c_2,...,c_N\}$ 是数据集合， c_j 代表第j个数据

3、归一化互信息

互信息是至两个变量的关联程度，计算公式如下：

最低0.47元/天解锁文章

小唐要努力

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。