CV | 聚类算法小结

最新推荐文章于 2024-07-27 12:47:08 发布

lovetaozibaby

最新推荐文章于 2024-07-27 12:47:08 发布

阅读量804

点赞数

分类专栏：计算机视觉文章标签：聚类

计算机视觉专栏收录该内容

29 篇文章 4 订阅

订阅专栏

转载自：https://blog.csdn.net/xzfreewind/article/details/73770327

1.1 聚类和分类

分类就是按照某种标准给对象贴标签（label），再根据标签来区分归类。

聚类是指事先没有标签，而通过某种成团分析找出事物之间存在聚集性原因的过程。

区别是，分类是事先定义好类别，类别数不变。分类器需要人工标注的分类训练语料训练得到，属于有指导范畴。聚类则是没有事先预定的类别，类别数不确定。聚类不需要人工标注和预先训练分类器，类别在聚类过程中自动生成。分类适合类别或者分类体系已经确定的场合。
分类的目的是学会一个分类函数或者分类模型（也常常叫做分类器），该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器，需要有一个训练样本数据集作为输入。

聚类是指根据“物以类聚”原理，将本身没有类别的样本聚集成不同的组，这样的一组数据对象的集合叫做簇，并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似，而不同簇的样本应该足够不相似。与分类规则不同，进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。其目的旨再发现空间实体的属性见的函数关系。常见的聚类算法包括：k-means，knn，CLARANS，BIRCH，CLIQUE，DBSCAN等。
在这里插入图片描述

1.2 聚类准则

聚类的准则有：距离相似度度量、密度相似度度量、连通性相似度度量和概念相似度度量。

1.2.1 距离相似度量

距离相似度度量是指样本间的距离越近，那么这俩样本间的相似度就越高。距离这个次可以理解为：把数据集的每一个特征当做空间上的一个维度，这样就确定了两个点，这两个点之间的“连接”直线就可以当做是它们的距离。一般有三种距离度量，曼哈顿距离、欧式距离、闵可夫斯基距离。这三个距离表示方式都是原始距离的变形，具体形式如下：
曼哈顿距离：
在这里插入图片描述
欧式距离：

闵可夫斯基距离：

在这里插入图片描述
因为相似度和距离时反比的关系，因此在确定好距离后可以设计相似函数如下：

其中，k-means算法就是基于距离的聚类算法。

1.2.2 密度相似度度量

密度相似度的出发点是“物以类聚，人以群分”，相同类别的物体往往会围在一个圈子里，这个圈子呢，密度会很大，所以就有密度相似度度量这一考察形式。
密度是单位区域内的对象个数。密度相似性度量定义为：
在这里插入图片描述
其中， di 、 dj 表示簇 Ci、 Cj 的密度。其值越小，表示密度越相近， Ci、 Cj 相似性越高。这样情况下，簇是对象的稠密区域，被低密度的区域环绕。

其中，DBSCAN就是基于密度的聚类算法。