1.聚类概念

1.聚类的概念
聚类分析是分类问题中的一种统计分析方法,是模式识别,数据挖掘以及机器学习的一个重要领域。聚类分析主要解决两方面的问题,一类是检测数据集中的数据是否有簇的结构,另一类是研究数据集存在什么样的簇结构。
聚类的概念,迄今为止还没有一个公认的定义,这里给出Everitt在1974年关于聚类所下的定义 :一个 簇内的实体是相似的,不同簇的实体是不相似的;一个簇是测试空间中点的会聚,同一簇的任意两个点间的距离小于不同簇的任意两个点间的距离;簇可以描 述为一个包含密度相对较高的点集的多维空间中的连通区域,它们借助包含密度相对较低的点集的区域与其他区域(簇)相分离。
Everitt给出的定义初学者一定会觉得晦涩,这里给出一组数据集作为例子,聚类算法当然不仅能解决数据点的问题,其他问题像图片也可以很好的处理。

在这里插入图片描述
图1 采用K-means算法得到的一个基聚类

图1中黑色笔记圈住的颜色相同的数据实例即属于一个簇(cluster),或称为一个类,这样的一个聚类结果称为一个基聚类(base partition)。
这里简单区分一下分类和聚类,首先先说明什么是有监督学习和无监督学习。机器学习分为有监督学习,半监督学习和无监督学习。当有一个可以参照的结果来核对时,它是有监督的,否则称为无监督的学习。比如有一个班级的学生,我们可以把它分为男生和女生,或者戴眼镜的和不戴眼镜的。来了一个人,一看,是个男生,那么把他分到男生那一类。这样就是分类,显然,分类是有监督的学习。聚类指的是,这个班的学生,一部分学生之间相似性很大,那么把这部分学生聚到一起,聚类是无监督的学习(但是在检验一个算法的准确性时,检测的数据有一个已聚类的好的结果供参考,这个结果称为ground truth)。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值