数学建模聚类模型

最新推荐文章于 2024-08-20 22:43:27 发布

old sweet ᝰ

最新推荐文章于 2024-08-20 22:43:27 发布

阅读量3.7k

点赞数 1

分类专栏：数学建模

本文链接：https://blog.csdn.net/weixin_43444687/article/details/104234993

版权

数学建模专栏收录该内容

11 篇文章 20 订阅

订阅专栏

“物以类聚，人以群分”，所谓的聚类，就是将样本划分为由类似的对象组成的多个类的过程。聚类后，我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测；也可以探究不同类之间的相关性和主要差异。

1、K-means聚类算法

1、算法流程

一、指定需要划分的簇[cù]的个数K值（类的个数）;
二、随机地选择K个数据对象作为初始的聚类中心（不一定要是我们的样本点）;
三、计算其余的各个数据对象到这K个初始聚类中心的距离，把数据对象划归到距离它最近的那个中心所处在的簇类中;
四、调整新类并且重新计算出新类的中心;
五、循环步骤三和四，看中心是否收敛（不变），如果收敛或达到迭代次数则停止循环;
六、结束。

2、图解K-means算法

在这里插入图片描述

K‐均值聚类可视化动画

3、算法流程图

在这里插入图片描述

4、K-means算法的评价

1、优点：

（1）算法简单、快速。
（2）对处理大数据集，该算法是相对高效率的。

2、缺点：

（1）要求用户必须事先给出要生成的簇的数目K。
（2）对初值敏感。
（3）对于孤立点数据敏感。

K‐means++算法可解决2、3两个缺点。

2、K-means++算法

1、基本原则

初始的聚类中心之间的相互距离要尽可能的远。

2、算法描述

步骤一：随机选取一个样本作为第一个聚类中心；
步骤二：计算每个样本与当前已有聚类中心的最短距离（即与最近一个聚类中心的距离），这个值越大，表示被选取作为聚类中心的概率较大；最后，用轮盘法（依据概率大小来进行抽选）选出下一个聚类中心；
步骤三：重复步骤二，直到选出K个聚类中心。选出初始点后，就继续使用标准的K-means算法了。

3、spss操作

3、k-means算法讨论

（1）聚类的个数K值怎么定？
答：分几类主要取决于个人的经验与感觉，通常的做法是多尝试几个K值，看分成几类的结果更好解释，更符合分析目的等。

（2）数据的量纲不一致怎么办？
答：如果数据的量纲不一样，那么算距离时就没有意义。例如：如果X1 单位是米，X2单位是吨，用距离公式计算就会出现“米的平方”加上“吨的平方” 再开平方，最后算出的东西没有数学意义，这就有问题了。

4、系统（层次）聚类

系统聚类的合并算法通过计算两类数据点间的距离，对最为接近的两类数据点进行组合，并反复迭代这一过程，直到将所有数据点合成一类，并生成聚类谱系图。

1、系统（层次）聚类算法流程

系统（层次）聚类的算法流程：
一、将每个对象看作一类，计算两两之间的最小距离；
二、将距离最小的两个类合并成一个新类；
三、重新计算新类与所有类之间的距离；
四、重复二三两步，直到所有类最后合并成一类；
五、结束。

2、分类准则：距离近的样品聚为一类

3、样品与样品之间的常用距离（样品i与样品j）

在这里插入图片描述

4、指标与指标之间的常用“距离”（指标i与指标j）

在这里插入图片描述

5、类与类之间的常用距离

1、由一个样品组成的类是最基本的类；如果每一类都由一个样品组成，那么样品间的距离就是类间距离。

2、如果某一类包含不止一个样品，那么就要确定类间距离，类间距离是基于样品间距离定义的，大致有如下几种定义方式：

最短距离法

在这里插入图片描述

最长距离法

在这里插入图片描述

组间平均连接法

在这里插入图片描述

组内平均连接法

在这里插入图片描述

重心法

在这里插入图片描述

6、过程

在这里插入图片描述

7、spss软件操作

在这里插入图片描述

8、聚类谱系图（树状图）

谱系图是较新的Spss版本添加的功能横轴表示各类之间的距离（该距离经过了重新标度）聚类的个数可以自己从图中决定。

9、用图形估计聚类的数量

肘部法则（Elbow Method）：通过图形大致的估计出最优的聚类数量。
在这里插入图片描述
K越大，J越小，可以根据折线下降趋势，设定类别数

5、DBSCAN算法

DBSCAN(Density-based spatial clustering of applications with noise)是Martin Ester, Hans-PeterKriegel等人于1996年提出的一种基于密度的聚类方法，聚类前不需要预先指定聚类的个数，生成的簇的个数不定（和数据有关）。该算法利用基于密度的聚类的概念，即要求聚类空间中的一定区域内所包含对象（点或其他空间对象）的数目不小于某一给定阈值。该方法能在具有噪声的空间数据库中发现任意形状的簇，可将密度足够大的相邻区域连接，能有效处理异常数据。

算法可视化