聚类_是指将聚类结果与外部某个参考模型进行比较-CSDN博客

本文链接：https://blog.csdn.net/m0_45210226/article/details/109694762

聚类性能度量也称为聚类“有效性指标”。与监督学习性能度量作用相似。
我们希望聚类结果的簇内相似度高，而簇间相似度低。

聚类性能度量大致分为两类：

将聚类结果和某个参考模型进行比较。对数据集中的样本两两配对，则在参考模型簇中和实际划分簇中，可以呈现四种结果：

分别将上述四种情况的个数设为 a,b,c,d 。则a + b + c + d = m(m+1)/2 （m为样本个数）

直接考察聚类结果而不用任何参考模型
考虑聚类结果的簇划分 C = {C1，C2，C3…Ck},定义
在这里插入图片描述
基于上式导出常用聚类性能度量内部指标：

上述公式 dist() ,如果为一个距离度量，则需满足一些基本性质：
- 非负性
- 对称性：dist(x, y)=dist(y, x)
- 同一性：dist(x,y)=0 ，x = y
- 直递性：dist(x,y) <= dist(x,z) + dist(z,y)
最常用的为“闵可夫斯基距离”：
- 当p = 1时，为曼哈顿距离
- 当p = 2时，为欧式距离
属性划分
- 连续属性：在定义域上有无穷多个取值
- 离散属性：在定义域上有有限个取值
  1. 有序属性：能够在属性值上计算距离，闵可夫斯基距离可用于有序属性
  2. 无序属性：不能在属性值上计算距离，采用VDM(Value Difference Metric)：在无序属性u上离散值a和b之间的VDM距离可表示为：
  
  3.将闵可夫斯基距离和VDM结合可处理混合属性：
非度量距离：一些相似度度量的距离不满足距离度量的所有性质，尤其是直递性；这样的距离称为非度量距离，可通过“距离度量学习”来实现。

此类算法假设聚类结构能通过一组原型刻画。通常先对原型初始化，再对原型进行迭代更新求解。不同原型表示、更新方法产生不同算法

K均值算法针对聚类所得的簇划分C = {C1，C2...Ck}最小化平方误差。

在这里插入图片描述
上述式中，μ_i 是簇C_i的均值向量。直观来看，一定程度上刻画了簇内样本围绕簇均值向量的紧密程度；E越小，簇内样本相似度越高。

在这里插入图片描述

优点：
1. 简单，快速的聚类算法
2. 对于大数据集，保持可伸缩性和高效率
3. 当簇近似为高斯分布时，效果较好
缺点：
1.在簇的平均值可被的定义的情况下才能使用，可能不适合某些情况
2.必须给出K(聚类的簇数目)，并且初始值敏感，对于不同的初始值，可能导致不同的结果。
3. 不适合发现非凹型簇或者差别很大的簇
4. 对噪声点和孤立点比较敏感

与K均值算法类似，学习向量量化(Learning Vector Quantization ,LVQ)是找到一组原型向量来刻画聚类结构，但LVQ假设样本带有类别标记，学习过程利用样本的这些监督信息来辅助聚类。

在这里插入图片描述

~~空空如也~~

密度聚类又称基于密度的聚类，此类算法假设聚类结构能通过样本分布的紧密程度确定。
通常该类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断拓展聚类簇以获得最终的聚类结果。

定义e-邻域：离目标距离不大于e的样本
核心对象：若在e-邻域中至少包含MinPts个样本，则该对象为核心对象
密度直达：若目标对象在其e-邻域中，且该对象本身为核心对象，则成该对象与目标对象之间密度直达
密度可达：对目标1和目标k，存在目标1，目标2…目标k两两密度直达，则称目标1和目标k密度可达
密度相连：对目标1和目标3，都存在目标2可达目标1，目标2可达目标3，则目标1和3密度相连
基于以上概念，DBSCAN将簇定义为，由密度可达关系导出的最大密度相连的样本集合。DBSCAN算法先从数据集中选择一个核心对象作为种子，再由此出发确定相应的聚类簇，直到
所有的核心对象均被访问过为止。

层次聚类试图在不同层次对数据集进行划分，从而形成数据结构。
数据集的划分可采用自底向上的聚合策略，也可采用自顶向下的分拆策略。

AGNES是一种自底向上聚合的层次聚类算法。先将数据集中的每个样本看作一个初始聚类簇，然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并，并不断重复该过程直到达到预设的聚类簇个数。
聚类簇之间的距离计算
1. 最小距离：两个簇之间的最小距离
2. 最大距离：两个簇之间的最大距离
3. 平均距离：两个簇之间的平均距离

在这里插入图片描述