数学建模之聚类分析

最新推荐文章于 2023-01-27 19:26:42 发布

Mr. Water

最新推荐文章于 2023-01-27 19:26:42 发布

阅读量7.7k

点赞数 5

分类专栏：算法数学建模文章标签：数学建模聚类分析

本文链接：https://blog.csdn.net/narcissus2_/article/details/99880124

版权

算法同时被 2 个专栏收录

31 篇文章 9 订阅

订阅专栏

数学建模

16 篇文章 21 订阅

订阅专栏

一、聚类分析（Cluster Analysis）简介

聚类分析是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类的分析技术。
数理统计中的数值分类有两种问题：

判别分析：已知分类情况，将未知个体归入正确类别
聚类分析：分类情况未知，对数据结构进行分类。

基本思想

聚类分析的基本思想: 对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。（1）根据一批样品的多个指标, 具体找出一些能够度量样品或指标之间的相似程度的统计量。
（2）以这些统计量为分类的依据, 把一些相似程度较大的样品(或指标)聚合为一类。
把另一些彼此之间相似程度较大的样品(或指标)聚合为另一类。

按相似程度的大小
把关系密切的样品聚合到一个小的分类单位,
关系疏远的样品聚合到一个大的分类单位,
直到把所有的样品(或指标)都聚合完毕。
把不同的类型一一划分出来, 形成一个由小到大的分类系统。再把整个分类系统画成一张分群图(又称谱系图), 用它把所有样品(或指标)间的亲疏关系表示出来。

二、聚类对象

要做聚类分析，首先得按照我们聚类的目的，从对象中提取出能表现这个目的的特征指标；然后根据亲疏程度进行分类。
聚类分析根据分类对象的不同可分为Q型和R型两大类
Q型是对样本进行分类处理，其作用在于:
- 具有共同特点的样本聚在一起
- 所得结果比传统的定性分类方法更细致、全面、合理
R型是对变量进行分类处理，其作用在于：
- 可以了解变量间及变量组合间的亲疏关系
- 可以根据变量的聚类结果及它们之间的关系，选择主要变量进行回归分析或Q型聚类分析

三、相似性度量

进行“相关性”或“相似性”度量。在相似性度量中常常包含有许多主观上的考虑，但是最重要的是考虑指标性质或观测的尺度。
当样品进行聚类时，“靠近”往往是距离。同时对指标进行聚类时，根据相关系数或某种关联性度量来聚类。

Q型样品间的“相似性”度量—距离(皮尔逊系数(课下去看））

设每个样品有 p 个指标, 观察值记为 $x_i = (x_{1i},x_{2i},..,x_{pi})^T, i = 1,2,3,...,n$
每个样品 $x_i$ 可看成是 p 维空间的一个点。于是, 可用各点之间的距离来衡量各样品点之间的接近程度。
样品 $x_i$ 和 $x_j$ 之间的距离$d(x_i,x_j),一般应满足如下条件：
i. $d(x_i,x_j)\geq 0$ ，且 $d(x_i,x_j) = 0 \iff x_i = x_j$
ii. $d(x_i,x_j) = d(x_j,x_i)$
iii. $d(x_i, x_j) \leq d(x_i,x_k) + d(x_k,x_j)$
有时所用的距离不满足(ⅲ), 但在广义的角度上仍称为距离。常用的距离有如下几种:

绝对距离【曼哈顿距离】（Block） $d_{ij} = \sum^p_{k = 1}|x_{ik}-x_{jk}|$
欧氏距离(Euclidean distance) $d_{ij} = [\sum^p_{k=1}(x_{ik}-x_{jk})^2]^{0.5}$
明考斯基距离(Minkowski) $d_{ij} = [\sum^p_{k = 1}(x_{ik}-x_{jk})^q]^{\frac {1}{q}}$
明考斯基距离(Minkowski) $d_{ij}(\infty ) = max_{1\leq k\leq q}|x_{ik}-x_{jk}|$

以上距离与各变量的量纲有关，为了消除量纲的影响，可对数据标准化。

数据的标准化 $x_{ij}' = \frac{x_{ij}-\overline{x_j}}{ {S_j}}$ 其中 $\overline{x_j}$ 和 $S_j$ 是第j个指标的均值和样本标准差

案例1：欧洲各国语言

题目大意

欧洲各国的语言有许多相似之处，有的十分相似。为了研究这些语言的历史关系，也许通过比较他们数字的表达式比较恰当。表列举出英语，挪威语，丹麦语，荷兰语，德语，法语，西班牙语，意大利语，波兰语，匈牙利语和芬兰语的1,2,…,10的拼法，希望计算这11种语言之间的语言的距离。

11种欧洲语言的数词

在这里插入图片描述

在聚类分析中通常要结合实际问题来选择适用的距离, 有时应根据实际问题定义新的距离。
显然，本例无法直接用上述公式来计算距离。但可以发现前三种文字(英、挪、丹)很相似。
特别是每个单词的第一个字母。可以用10个数词中第一个字母不同的个数来定义两种语言之间的距离。例如：英语和挪威语中只有1和8的第一个字母不同, 则它们之间的距离为2。于是我们得到这样的表格

R型聚类统计量

夹角余弦

2、相关系数

对两个指标之间的相似程度用相似系数来刻划，相似系数绝对对值越接近于1，表示指标间的关系越密切，绝对值越接近于0，表示指标间的关系越疏远.

三、系统聚类分析

1 系统聚类分析的基本思想是：
- 距离相近的样品（或变量）先聚成类，距离相远的后聚成类，过程一直下去，每个样品（或变量）总能聚到合适的类中。
- 系统聚类分析过程是：假设总共有n个样品（或变量），第一步将每个样品（或变量）独自聚成一类，共有n类；
- 第二步根据所确定的样品（或变量）“距离”公式，将距离较近的两个样品（或变量）聚合为一类，其他样品（或变量）仍各自聚为一类，共有n－1类；
- 第三步将“距离”最近的两个类进一步聚成一类，共聚成n－2类；……以上步骤一直进行下去，最后将所有的样品或变量）聚成一类。
- 将整个分类系统地画成一张谱系图，所以有时系统聚类分析也叫谱系聚类分析。
2 类间距离
- 首先定义类与类之间地距离，又类间的距离定义不同产生不同的系统聚类分析。常见的类间的距离有8种之多，与之相应的系统聚类分析也有8种之多、分别为最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。它们的归类步骤基本是一致的。
用 $i, j$ 表示样品 $x_i,x_j$ 。用 $d_{ij}$ 表示 $x_i$ 与 $x_j$ 之间的距离，用 $G_p$ 与 $G_q$ 之间的距离用 $D(G_p,G_q)$ 表示。下面给出四种最常用的类与类之间距离的定义。

1 、最短距离（Nearest Neighbor)

在这里插入图片描述
$\{D_{pq} = D(G_p,G_q) = min\{ d_{ij}|i\in G_p,j\in G_q \}\}$
即定义 $G_p$ 与 $G_q$ 之间的距离为 $G_p$ 与 $G_q$ 中最近的两个样品的距离。
类与类之间的最短距离有如下的递推公式。设 $G_r$ 由 $G_p$ 与 $G_q$ 合并而成，则 $G_r$ 与其它类 $G_k(k \not= p,q)$
$D(G_r,G_k)$ $min\{ d_y|i\in G_r,j\in G_k \}\\=min\{ min\{ d_y|i\in G_p,h \in G_k\}min\{d_y|i\in G_q,j\in G_k\} \}\\=min\{D(G_p,G_k),D(G_q,G_k)\}$

说的就是两个类的距离就是不同类的最短距离。

最短距离法进行聚类分析的步骤如下：

开始各样本自成一类
根据样品的特征，规定样品之间的距离 $d_{ij}$ ，共有 $C^n_2$ 个。将所有列表，记为D(0)表，该表是一张对称表。所有的样本点各自为一类。
选择D(0)表中最小的非零数，不妨假设 $d_{pq}$ ，于是将 $G_p$ 和 $G_q$ 合并为一类，记为 $G_r = \{ G_p,G_q\}$ 。
利用递推公式计算新类与其它类之间的距离。分别删除D（0）表的第p，q行和第p， q列，并新增一行和一列添上的结果，产生D（1）表。
在D（1）表再选择最小的非零数，其对应的两类有构成新类，再利用递推公式计算新类与其它类之间的距离。分别删除D（1）表的相应的行和列，并新增一行和一列添上的新类和旧类之间的距离。结果，产生D（2）表。类推直至所有的样本点归为一类为止。

小总结

（1）定义样品之间的距离
（2）找出距离最小元素，设为 $D_{pq}$ ，则将 $G_p$ 与 $G_q$ 合并成以新类记为 $G_r$ ，记为 $G_r = \{ G_p, G_q\}$
（3）按上式计算新类与其他类之间的距离。
（4）重复（2），（3）的步骤，直到将所有元素并成一类为止。
(如果某一步距离最小的元素不止一个，则将对应这些最小元素的类可以同时合并）

样例

设有6个样品，每个只测一个指标，分别是1， 2，5，7，9，10，试采用绝对值距离用最短距离法将它们进行分类。
解（1）样品首先采用绝对值距离，计算样品之间的距离阵为D(0).
在这里插入图片描述

现在有六个类，把距离最短的合成一个类，新图如下图所示（合并过后，会把。
多个类的都考虑进去）
这里我们看到有两个“2”，遇见这种情况优先合并小类。

2. 最长距离法

这个所谓的最长距离指不是要取类和类的最长距离，而是在合并之后，类和类之间的距离选择”最长的数”。
举例说明：
仍然选择短的合并
此时 $G_7$ 和 $G_3$ 的距离为什么是4呢，因为我们选择的是 $G_3$ 和 $G_7$ 的最长距离作为两个类之间的距离。
同理为什么 $G_8$ 和 $G_7$ 是9也是这个原因。
分类结果往往差别不大

3. 类平均距离（组内平均连接法）

4. 重心法

基本就是类间距离计算公式不一样

5. 动态聚类法（快速聚类法）（k-mean\高斯混合法)

系统聚类法是一种比较成功的聚类方法。但是复杂度是 $O(n^2)$ ，速度特别慢。
比如在市场抽样调查中，有4万人就其对衣着的偏好作了回答，希望能迅速将他们分为几类。这时，采用系统聚类法就很困难，而动态聚类法就会显得方便，适用。
动态聚类使用于大型数据。

基本思想

基本思想：选取若干个样品作为凝聚点，计算每个样品和凝聚点的距离，进行初始分类，然后根据初始分类计算其重心，再进行第二次分类，一直到所有样品不再调整为止。

动态聚类法的基本步骤：

第一，选择凝聚点；
第二，初始分类；
对于取定的凝聚点，视每个凝聚点为一类，将每个样品根据定义的距离向最近的凝聚点归类。
第三，修改分类
得到初始分类，计算各类的重心，以这些重心作为新的凝聚点，重新进行分类，重复步骤2，3，直到分类的结果与上一步的分类结果相同，表明分类已经合理为止。

具体步骤

用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤：
1、随机选取两个点 $x_1^{(1)}$ 和 $x_2^{(1)}$ 作为凝聚点。
2、对于任何点 $x_k$ ，分别计算 $d(x_k,x_l^{(1)})$ 和 $d(x_k,x_2^{(1)})$
3、若 $d(x_k,x_1^{(1)})<d(x_k,x_2^{(1)})$ ，则将x划为第一类，否则划给第二类。
4、分别计算两个类的重心，则得 $x_1^{(2)}$ 和 $x_2^{(2)}$ ，以其为新的凝聚点，对空间中的点进行重新分类，得到新分类。

选择聚点

聚点（种子）是一批有代表性的样品，它的选择决定了初始分类，对最终分类有较大影响。

在进行快速聚类法前，要根据研究问题的要求及了解程度先定下分类数k，这样就可以在每一类中选择一个有代表性的样品作为聚点（初始聚点）。

选择聚点有下列方法：
(1)经验选择。如果对研究对象比较了解，根据以往的经验定下k个样品作为聚点。
(2)将n个样品人为地（或随机地）分成k类，以每类的重心作为聚点。
(3)最小最大原则。设要将n个样品分成k类，先选择所有样品中距离最远的两个样品 $x_{i_1},x_{i_2}$ 为前两个聚点，即选择 $x_{i_1}$ 和 $x_{i_2}$ ，使 $d(x_{i_1}x_{i_2}) = d_{i_1,i_2} = max\{ d_{ij}\}$
然后选择第3个聚点xi ,使其与前两个聚点的距离最小者等于所有其余的与 $x_{i_1}$ , $x_{i_2}$ 的较小距离中最大的

案例

某商店5位售货员的销售量和教育程度如下表：
在这里插入图片描述
对这5位售货员分类。

选择凝聚点
计算各样品点两两之间的距离，得到如下的距离矩阵（定义距离为（“销售量”，“教育程度”））
$d_{25} = \sqrt {53}$ 为最大。可选择2和5作为凝聚点。

2.初始分类
对于取定的凝聚点，视每个凝聚点为一类，将每个样品根据定义的距离，向最近的凝聚点归类。
在这里插入图片描述

得到初始分类为： $G_1: \{ 1,2\} , G_2: \{ 3,4,5\}$

修改分类
重心是指每类的均值向量，计算G1和G2的重心：G1的重心（1,1.5）， G2的重心（7.33,1.67）以这两个重心点作为凝聚点，再按最小距离原则重新聚类

得到分类结果和上面雷同

Mr. Water

关注

5
点赞
踩
76

收藏

觉得还不错? 一键收藏
0
评论
数学建模之聚类分析

一、聚类分析（Cluster Analysis）简介聚类分析是直接比较各事物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类的分析技术。数理统计中的数值分类有两种问题：判别分析：已知分类情况，将未知个体归入正确类别聚类分析：分类情况未知，对数据结构进行分类。基本思想聚类分析的基本思想: 对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)。（1）根据一...
复制链接

扫一扫