聚类分析学习

1:聚类任务

聚类是一种无监督的机器学习任务。与监督学习不同,聚类算法仅依赖输入数据,并致力于在特征空间中找到自然的组或群集。这些群集通常是特征空间中的密度区域,其中同一群集的数据点比其他群集更紧密地聚集在一起。 聚类分析是根据在数据中发现的描述对象及其关系的信息,将数据对象分组。目的是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内相似性越大,组间差距越大,说明聚类效果越好。

2:不同的距离度量

对于函数dist(·,·),若它是一个“距离度量”,则需满足四个性质
1.非负性:距离不为负
2.同一性:只有两点重合时距离才为0
3.对称性:A到B的距离等于B到A的距离
4.直递性:A到B再到C的距离之和要大于或等于从A直接到C的距离

p=1时dist_{mk}即曼哈顿距离,p=2时dist_{mk}即为欧氏距离

3:原型聚类的方法

3.1 k均值(k-means)算法

给定样本集D = {x1,x2,……xm},k均值算法针对聚类所得的簇划分C = {C1,C2,……Ck}最小化平方误差

直观上看,该式刻画了簇内样本围绕簇均值向量的紧密程度,E值越小则簇内样本相似度越高。最小化上式并不容易,需要考察样本集D所有可能的簇划分,这是一个NP难问题,因此k均值算法采用了贪心策略,通过迭代优化来近似求解上面的公式,算法流程如下:

3.2 学习向量量化(LVQ)

LVQ假设数据样本带有类别标记Y = {y1,y2,……ym},学习过程利用样本的这些监督信息来辅助聚类,其流程是

 

4:高斯混合聚类

高斯混合聚类采用概率模型来表达聚类原型

其中p(x丨ui,Σi)表示样本集中每个混合成分(高斯分布)的概率密度函数,ui为均值向量,Σi为协方差矩阵,αi为各成分的混合系数(概率)。

在高斯混合聚类中,我们需要学习的参数是,αi,ui,Σi,其流程为:

5:密度聚类技术

在密度聚类中,DBSCAN是一种著名的密度聚类算法,它基于一组“邻域”参数(e,MinPts)来刻画样本分布的紧密程度。算法涉及到的概念:
“e - 邻域”:在xj样本以e为半径范围内的所有样本的集合
核心对象:当样本 xj的 “e - 邻域”内含有至少 MinPts 个样本时,该样本 xj 是一个核心对象
密度直达:若 xj 位于 xi 的 “e - 邻域”中,且 xi 是核心对象,则称 xj 与 xi 密度直达
密度可达:若 xi 与 xj 能通过一系列密度直达的点关联起来,则 xi 与 xj 密度可达
密度相连:若 xi 与 xj 都能通过 xk 密度可达,则称 xi 与 xj 密度相连

基于以上概念,NBSCAN算法的目的是:从数据集D中,找出满足某些性质的聚类簇。这些性质是 NBSCAN算法的流程是:

6:层次聚类的算法和实现

层次聚类试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。AGNES是一种采用自底向上聚合策略的聚类算法,它先将每个样本都作为一个簇,然后在算法运行的每一步找出距离最近的两个聚类簇进行合并,该过程不断重复,直到达到预设的聚类簇个数。流程如下:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值