聚类——基于距离阈值的聚类算法

最新推荐文章于 2024-03-02 17:02:00 发布

有梦想的雨

最新推荐文章于 2024-03-02 17:02:00 发布

阅读量4.8k

点赞数 4

分类专栏：机器学习模式识别文章标签：聚类算法机器学习

本文链接：https://blog.csdn.net/qq_41536160/article/details/122110719

版权

21 篇文章

订阅专栏

11 篇文章

订阅专栏

基于距离阈值的聚类算法

对待分类模式样本集以最大距离选取新的聚类中心，以最小距离原则进行模式归类。

从N个样本集中的任选取一个样本，作为第一个聚类中心 $z_1$ ；
选取距离第一个聚类中心 $z_1$ 最远的样本作为第二个聚类中心 $z_2$ ；
计算剩余样本与 $z_1,z_2$ 之间的距离，并求出他们中的最小值，即：

$\displaystyle d_{ij}=||x_i-z_j||,\;j=1,2\;;\;\;\;d_i=min[d_{i1},d_{i2}],\;i=1,2,\cdots,N$
根据选定的比例系数 $\theta$ ，计算 $\displaystyle d_l={max}_i\{min[d_{i1},d_{i2}]\}$ ；

若 $\displaystyle d_l>\theta\cdot ||z_1-z_2||$ ，则相应的样本 $x_l$ 作为第三个聚类中心 $z_3$ ，并转至下一步继续判断是否存在新的聚类中心；

否则，跳转至第 6 步;
假设存在 k 个聚类中心，计算个样本到各个聚类中心的距离 $d_{ij}$ ,并算出： $\displaystyle d_l={max}_i\{min[d_{i1},d_{i2},\cdots,d_{ik}]\}$ ；

若 $\displaystyle d_l>\theta\cdot ||z_1-z_2||$ ，则 $z_{k+1}=x_l$ ,并继续在第五步循环，判断是否有新的聚类中心存在；

否则，转至第 6 步。
当判断不再有新的聚类中心存在时，计算： $\displaystyle d_{ij}=||x_i-z_j||,\;j=1,2,\cdots,k\;;i=1,2,\cdots,N$ ，将样本集按最小距离原则分类到各个类中。

N个代分类样本 $\{x_1,x_2,\cdots,x_n\}$ ，将他们按照距离阈值 $T$ 分类到以 $z_1,z_2,\cdots$ 为中心的类别中。

从N个样本中的任选取一个样本 $x_i$ ，作为第一个聚类中心，如令 $z_1=x_1$ ；
计算样本 $x_2$ 到 $z_1$ 的欧式距离 $d_{21}=||x_2-x_1||$ ：

若 $d_{21}>T$ ，则定义一新的聚类中心 $z_2=x_2$ ；

否则， $x_2\in$ 以 $z_1$ 为中心的聚类；
假设已有聚类中心 $z_1, z_2$ ，计算 $d_{31}=||x_3-z_1||，d_{32}=||x_3-z_2||$ ：

若 $d_{31}>T$ ，则建立第三个聚类中心 $z_3=x_3$ ;

否则， $x_2\in$ 离 $z_1和z_2$ 中最近的类（最近邻的聚类中心）；

$\cdots\cdots$
以此类推，直到将所有的 N 个样本都进行分类。