CV | 聚类算法小结

转载自:https://blog.csdn.net/xzfreewind/article/details/73770327

1.1 聚类和分类

分类就是按照某种标准给对象贴标签(label),再根据标签来区分归类。

聚类是指事先没有标签,而通过某种成团分析找出事物之间存在聚集性原因的过程。

区别是,分类是事先定义好类别,类别数不变。分类器需要人工标注的分类训练语料训练得到,属于有指导范畴。聚类则是没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。分类适合类别或者分类体系已经确定的场合。
分类的目的是学会一个分类函数或者分类模型(也常常叫做分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。

聚类是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨再发现空间实体的属性见的函数关系。常见的聚类算法包括:k-means,knn,CLARANS,BIRCH,CLIQUE,DBSCAN等。
在这里插入图片描述

1.2 聚类准则

聚类的准则有:距离相似度度量、密度相似度度量、连通性相似度度量和概念相似度度量。

1.2.1 距离相似度量

距离相似度度量是指样本间的距离越近,那么这俩样本间的相似度就越高。距离这个次可以理解为:把数据集的每一个特征当做空间上的一个维度,这样就确定了两个点,这两个点之间的“连接”直线就可以当做是它们的距离。一般有三种距离度量,曼哈顿距离、欧式距离、闵可夫斯基距离。这三个距离表示方式都是原始距离的变形,具体形式如下:
曼哈顿距离:
在这里插入图片描述
欧式距离:
在这里插入图片描述
闵可夫斯基距离:

在这里插入图片描述
因为相似度和距离时反比的关系,因此在确定好距离后可以设计相似函数如下:
在这里插入图片描述
其中,k-means算法就是基于距离的聚类算法。

1.2.2 密度相似度度量

密度相似度的出发点是“物以类聚,人以群分”,相同类别的物体往往会围在一个圈子里,这个圈子呢,密度会很大,所以就有密度相似度度量这一考察形式。
密度是单位区域内的对象个数。密度相似性度量定义为:
在这里插入图片描述
其中, di 、 dj 表示簇 Ci、 Cj 的密度。其值越小,表示密度越相近, Ci、 Cj 相似性越高。这样情况下,簇是对象的稠密区域,被低密度的区域环绕。
在这里插入图片描述
其中,DBSCAN就是基于密度的聚类算法。

1.3.2.3 连通性相似度度量

数据集用图表示,图中结点是对象,而边代表对象之间的联系,这种情况下,使用连通性相似性,将簇定义为图的连通分支,即图中互相连通但不与组外对象连通的对象组。
也就是说,在同一连通分支中的对象之间的相似性度量大于不同连通分支之间对象的相似性度量。
在这里插入图片描述

1.2.4 概念相似度度量

若聚类方法是基于对象具有的概念,则需要采用概念相似性度量,共同性质(比如最近邻)越多的对象越相似。簇定义为有某种共同性质的对象的集合。
在这里插入图片描述

1.3 聚类的评价标准

一个好的聚类算法产生高质量的簇,即高的簇内相似度和低的簇内相似度。通常估计聚类结果质量的准则有内部质量评价准则和外部质量评价准则。比如,我们可以用CH指标进行评定。CH指标定义如下:
在这里插入图片描述
其中:
在这里插入图片描述

z为整个数据集的均值, Zi 为 Ci 的均值,traceB表示簇间距离,traceW表示簇内距离,CH值越大,则聚类效果越好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值