机器学习与数据挖掘学习笔记(3)聚类

目录

一、聚类的定义

二、模型的性能度量

三、常见的聚类算法

四、K-means

五、层次聚类法

六、基于密度的聚类方法


 

一、聚类的定义

聚类就是将大量未知标注的数据集按照数据本身的特点将数据集划分为多个类别,使得类内的样本尽可能地相似,类间地样本尽可能地不同。

之前我们学习过的分类和回归问题都是有监督问题,给的训练集都是有标记的样本;而聚类问题则是无监督问题,训练集的样本都是无标记的。

 

二、模型的性能度量

为了能够分辨不同聚类模型的性能好坏,我们需要确定一些指标来评价我们得到的模型。

聚类性能指标一般有如下指标:

1、准确率

                                        Acc=\frac{N_{cor}}{N}

其中N_{cor}代表正确聚类的数据个数,N代表数据的总个数

 

2、纯度

                                       Purity(\Omega,C)=\frac{1}{N}\sum_k\mathop{\mathbb{\max}}\limits_{j}|\omega_k\cap c_j|

其中N代表数据的总个数,\omega_k代表第k个聚类簇,C=\{c_1,c_2,...,c_N\}是数据集合,c_j代表第j个数据

 

3、归一化互信息

互信息是至两个变量的关联程度,计算公式如下:

                                     

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值