常见几个聚类算法原理

最新推荐文章于 2024-08-09 23:32:16 发布

Rnan-prince

最新推荐文章于 2024-08-09 23:32:16 发布

阅读量3.5k

点赞数 1

分类专栏：机器学习算法文章标签：聚类机器学习

本文链接：https://blog.csdn.net/qq_19446965/article/details/104201733

版权

57 篇文章 17 订阅

订阅专栏

51 篇文章 7 订阅

订阅专栏

聚类算法的思想：

给定N个训练样本(未标记的)x1,x2,...,xN，目标是把比较“接近” 的样本放到一个cluster里，总共得到K个cluster。

聚类算法的目标：

类内紧致，类间分离

一、K-means算法

针对上述(2)，通过类的自动合并和分裂，得到较为合理的类型数目 K，例如 ISODATA 算法。
针对上述(3)，可选用二分K-均值聚类；或者多设置一些不同的初值，对比最后的运算结果，一直到结果趋于稳定结束。
首先把所有样本作为一个簇，然后二分该簇，接着选择其中一个簇进行继续进行二分。选择哪一个簇二分的原则：是能否使得误差平方和（SSE: Sum of Squared Error）尽可能的小。
针对上述第(1)点，改成求点的中位数，这种聚类方式即K-Mediods聚类（K中值）

假设我的样本集是D=(x1,x2,...,xm),则DBSCAN具体的密度描述定义如下：

ϵ-邻域：对于xj∈D，其ϵϵ-邻域包含样本集D中与xjxj的距离不大于ϵϵ的子样本集，即Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}Nϵ(xj)={xi∈D|distance(xi,xj)≤ϵ}, 这个子样本集的个数记为|Nϵ(xj)||Nϵ(xj)|　
核心对象：对于任一样本xj∈D，如果其ϵ-邻域对应Nϵ(xj)至少包含MinPts个样本，即如果|Nϵ(xj)|≥MinPts，则xj是核心对象。

密度直达：如果xi位于xj的ϵ-邻域中，且xj是核心对象，则称xi由xj密度直达。注意反之不一定成立，即此时不能说xj由xi密度直达, 除非且xi也是核心对象。
密度可达：对于xi和xj,如果存在样本样本序列p1,p2,...,pT,满足p1=xi,pT=xj, 且pt+1由pt密度直达，则称xj由xi密度可达。也就是说，密度可达满足传递性。此时序列中的传递样本p1,p2,...,pT−1均为核心对象，因为只有核心对象才能使其他样本密度直达。注意密度可达也不满足对称性，这个可以由密度直达的不对称性得出。
密度相连：对于xi和xj,如果存在核心对象样本xk，使xi和xj均由xk密度可达，则称xi和xj密度相连。注意密度相连关系是满足对称性的。