数学建模预备知识——聚类分析

最新推荐文章于 2022-11-20 20:37:07 发布

L.A.M～F.C.B

最新推荐文章于 2022-11-20 20:37:07 发布

阅读量1.1k

点赞数

分类专栏：数学建模预备知识文章标签：数学建模 matlab

本文链接：https://blog.csdn.net/NKU_lyx/article/details/119667201

版权

数学建模预备知识专栏收录该内容

6 篇文章 2 订阅

订阅专栏

聚类分析

通常，人们可以凭借惊讶拟合专业知识来实现分类。而聚类分析（Cluster Analysis）作为一种定量的方法，将从数据分析的角度，给出一个更准确更细致的分类工具。

聚类分析又称群分析，是对多个样本或者指标进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析，对指标进行分类称为R型聚类分析。

Q型聚类分析

样本的相似性度量

要用数量化的方法对事物进行分类，就必需要用数量化的方法描述事物之间的相似度。一个事物常常需要多个变量来刻画，如果对于一群有待分类的样本点需要用 $p$ 个变量描述，则每个样本点可以看成是 $R^p$ 空间中的一个点。因此，很自然想到可以用距离来度量样本带你之间的相似程度。

记 $\Omega$ 为样本点击，距离 $d(\cdot,\cdot)$ 是 $\Omega \times \Omega \to R^+$ 的一个函数，满足条件
- $\geq 0,\quad x,y\in \Omega$
- $d (x, y) = 0$ ，当且仅当 $x = y$ 。
- $d(x,y)=d(y,x),\quad x,y \in \Omega$
- $d(x,y)\leq d(x,z)+d(z,y),\quad x,y,z\in \Omega$
这一距离的定义是我们所熟知的，它满足正定性、对称性和三角不等式。在聚类分析中，对定量变量，最常用的是闵氏（Minkowski）距离，即
$d_q(x,y)=[\sum _{k=1} ^p |x_k-y_k|^q]^{\frac{1}{q}},\quad q>0$
当 $q = 1, 2$ 或 $q\to +\infin$ 时，则分别得到：
- 绝对距离
  $d_1(x,y)=\sum_{k=1}^{p}|x_k-y_k| \tag{1}$
- 欧几里得距离
  $d_2(x,y)=[\sum_{k=1}^{p}|x_k-y_k|^2]^\frac{1}{2} \tag{2}$
- 切比雪夫距离
  $d_\infin(x,y)=\max _{1\leq k\leq p}|x_k-y_k| \tag{3}$
- 马氏距离
  $d(x,y)=\sqrt{(x-y)^T\mathbf{\sum}^{-1}(x-y)} \tag{4}$
  式中： $x, y$ 为来自 $p$ 维总体 $Z$ 的样本观测值； $\sum$ 为 $Z$ 的协方差矩阵，实际中 $\sum$ 往往是未知的，常常需要用样本协方差来估计。
  
  马氏距离对一切线性变换是不变的，故不受量纲的影响。
在Minkowski距离中，最常用的是欧几里得距离，它的主要有点是当坐标轴进行正交旋转的时候，欧氏距离是保持不变的。因此，如果对原坐标系进行平移或者旋转变换，则变换后样本点检的距离和变换前完全相同。

值得注意的是，在采用Minkowski距离时，一定要采用相同量纲的变量。当变量的量纲不同时，观测值得变易范围相差悬殊，建议首先进行数据得标准化处理，然后再计算距离。再采用Minkowski距离时，还应尽可能避免变量的多重相关性。多重相关性所造成的信息重叠，会片面强调某些变量的重要性。
类与类之家你的相似性度量

如果有两个样本类 $G_1$ 和 $G_2$ ，可以用以下方法度量他们之间的距离。
- 最短距离法（Nearest Neighbor or Single Linkage Method）
  $D(G_1,G_2)=\min _{x_i \in G_1 \\y_j \in G_2} \{d(x_i,y_j)\} \tag{5}$
  它的直观意义为两个类中最近两点间的距离。
- 最长距离法（Farthest Neighbo or Complete Linkage Method）
  $D(G_1,G_2)=\max _{x_i \in G_1 \\y_j \in G_2} \{d(x_i,y_j)\} \tag{6}$
  它的直观意义为两个类中最远两点间的距离。
- 重心法（Centroid Method）
  $D(G_1,G_2)=d(\bar{x},\bar{y}) \tag{7}$
  式中： $\bar{x},\bar{y}$ 分别为 $G_1,G_2$ 的重心。
- 类平均法（Group Average Method）
  $D(G_1,G_2)=\frac{1}{n_1n_2}\sum_{x_i\in G_1}\sum_{x_j\in G_2}d(x_i,x_j) \tag{8}$
  它等于 $G_1,G_2$ 两个样本点距离的平均， $n_1,n_2$ 分别为 $G_1,G_2$ 中样本点的个数
- 离差平方和法（Sum of Squares Method）
  
  若记
  $D_1(G_1,G_2)=\sum_{x_i\in G_1}(x_i-\bar{x}_1)^T(x_i-\bar{x}_1)\\ D_2(G_1,G_2)=\sum_{x_j\in G_2}(x_j-\bar{x}_2)^T(x_j-\bar{x}_2)\\ D_{12}=\sum _{x_k \in G_1 \cup G_2} (x_k-\bar{x})^T(x_k-\bar{x})$
  式中
  $\bar{x}_1=\frac{1}{n_1}\sum_{x_i \in G_1}x_i,\quad \bar{x}_2=\frac{1}{n_2}\sum _{x_j\in G_2}x_j,\quad \bar{x}=\frac{1}{n_1+n_2}\sum _{x_k\in G_1\cup G_2}x_k$
  则定义
  $D(G_1,G_2)=D_{12}-D_1-D_2 \tag{9}$
  事实上，若 $G_1,G_2$ 内部点与点之间距离很小，则它们能很好地各自聚为一类，并且这两类又能充分分离，这时必然有 $D=D_{12}-D_1-D_2$ 很大。因此，按照定义可以认为，两类 $G_1,G_2$ 之间的距离充分大。离差平方和法又称为 Ward 法。
聚类图

Q型聚类结果可以由一个聚类图展示出来

例如平面上七个点 $w_1,\cdots,w_7$ ，可以用聚类图来表示聚类结果。

记 $\Omega=\{w_1,\cdots,w_7\}$ ，聚类结果如下：当距离值为 $f_5$ 时，分为一类，即
$G_1=\{w_1,w_2,w_3,w_4,w_5,w_6,w_7\}$
当距离值为 $f_4$ 时，分为两类，即
$G_1=\{w_1,w_2,w_3\},\ G_2=\{w_4,w_5,w_6,w_7\}$
当距离值为 $f_3$ 时，分为三类，即
$G_1=\{w_1,w_2,w_3\},\ G_2=\{w_4,w_5,w_6\},\ G_3=\{w_7\}$
当距离值为 $f_2$ 时，分为四类，即

$G_1=\{w_1,w_2,w_3\},\ G_2=\{w_4,w_5\},\ G_3=\{w_6\},\ G_4=\{w_7\}$

当距离值为 $f_1$ 时，分为六类，即
$G_1=\{w_4,w_5\},\ G_2=\{w_1\},\ G_3=\{w_2\},\ G_4=\{w_3\},\ G_5=\{w_6\},\ G_6=\{w_7\}$
当距离小于 $f_1$ 时，分为七类，每个点自成一类。

怎么才能生成聚类图？

设 $\Omega=\{w_1,w_2,w_3,w_4,w_5,w_6,w_7\}$ ，具体步骤如下：

（1）计算 $n$ 个样本点两两之间的距离 ${d_{ij}\}$ ，记为矩阵 $\mathbf{D}=(d_{ij})_{n\times n}$

（2）首先构造 $n$ 个类，每一个类中只包含一个样本点，每一类的平台高度为0

（3）合并距离最近的两类为新类，并以这两类之间的距离值作为聚类图中的平台高度。

（4）计算新类与当前各类的距离，若类的个数已经为1，转入步骤(5)，否则重复步骤(3)

（5）画出聚类图

（6）决定类的个数和如何分类

最短距离法的聚类举例

如果使用最短距离法来测量类与类之家你的距离，即称其为系统聚类法中的最短距离法，也成为最邻近法。

例：设有5个销售员 $w_1,w_2,w_3,w_4,w_5$ ，他们的销售业绩有二维变量 $v_1,v_2)$ 描述

销售员 $v_1$ （销售量）/百件 $v_2$ （回收款项）/万元
$w_1$ 1 0
$w_2$ 1 1
$w_3$ 3 2
$w_4$ 4 3
$w_5$ 2 5

记销售员 $w_i$ 的销售业绩为 $v_{i1},v_{i2})$ 。使用绝对值距离来测量点与点之间的距离，使用最短距离法来测量类与类之间的距离，即
$d(w_i,w_j)=\sum _{k=1} ^2 |v_{ik}-v_{jk}|,\quad D(G_p,G_q)=\min _{w_i\in G_p \ w_j\in G_q}\{d(w_i,w_j)\}$
由距离公式 $d(\cdot,\cdot)$ 可以计算出距离矩阵
$\left[\begin{matrix} 0&1&4&6&6\\ &0&3&5&5\\ & &0&2&4\\ & & &0&4\\ & & & &0 \end{matrix}\right]$
第一步： 所有元素自成一类 $H_1=\{w_1,w_2,w_3,w_4,w_5\}$ 。每一类的平台高度均为0，即 $f(w_i)=0$ 。显然此时 $D(G_p,G_q)=d(w_p,w_q)$ 。

第二步： 取新类的平台高度为1，把 $w_1,w_2$ 合并为一个新类 $h_6$ ，此时的分类情况为
$H_2=\{h_6,w_3,w_4,w_5\}$
第三步： 取新类的平台高度为2，把 $w_3,w_4$ 合并为一个新类 $h_7$ ，此时的分类情况为
$H_3=\{h_6,h_7,w_5\}$
第四步： 取新类的平台高度为3，由于 $h_6,h_7$ 之间按照最短距离法计算的距离为3，所以将 $h_6,h_7$ 合并为一个新类 $h_8$ ，此时的分类情况为
$H_4=\{h_8,w_5\}$
第五步： 取新类的平台高度为4，把 $h_8,w_5$ 合并成一个新类 $h_9$ ，此时的分类情况为
$H_5=\{h_9\}$
做出聚类图及二叉树图

使用Matlab实现其功能
a=[1,0;1,1;3,2;4,3;2,5];
[m,n]=size(a);
d=zeros(m);
d=mandist(a');
d=tril(d);
nd=nonzeros(d);
nd=union([],nd);
for i=1:m-1
	nd_min=min(nd);
	[row,col]=find(d==nd_min);
	tm=union(row,col);
	tm=reshape(tm,1,length(tm));
	fprintf('第%d次合成，平台高度为%d时的分类结果为：%s\n',i,nd_min,int2str(tm));
	nd(nd==nd_min)=[];
	if length(nd)==0
		break;
    end
end
还可以利用Matlab的统计工具箱
a=[1,0;1,1;3,2;4,3;2,5];
y=pdist(a,'cityblock'); %计算绝对值距离
z=linkage(y); %生成等级聚类树
dendrogram(z); %画聚类图
T=cluster(z,'maxclust',3); %把对象划分成三类
for i=1:3
	tm=find(T==i);
	tm=reshape(tm,1,length(tm));
	fprintf('第%d类的有%s\n',i,int2str(tm));
end

销售员	$v_1$ （销售量）/百件	$v_2$ （回收款项）/万元
$w_1$	1	0
$w_2$	1	1
$w_3$	3	2
$w_4$	4	3
$w_5$	2	5

Matlab中聚类分析的相关命令

pdist

Y=pdist(X)计算 $m\times n$ 矩阵 $\mathbf{X}$ 中两两对象间的欧氏距离。对于有 $m$ 个对象组成的数据集，共有 $\frac{(m-1)\cdot m}{2}$ 个两两对象组合。

输出 Y 是包含距离信息的长度为 $\frac{(m-1)\cdot m}{2}$ 的向量。可以用 squareform 将其转换成方阵，这样可以使得矩阵中的元素 $(i, j)$ 对应原始数据集中对象 $i$ 和 $j$ 之间的距离。

Y=pdist(X,'metric) 中用 metric 指定的方法计算矩阵 $\mathbf{X}$ 中对象间的距离。

参数	含义	参数	含义
`euclidean`	欧氏距离（默认）	`hamming`	汉明距离
`seuclidean`	标准欧几里得距离	`custom distance fuction`	自定义函数距离
`cityblock`	绝对值距离	`cosine`	1-两个向量夹角余弦
`minkowski`	闵氏距离	`correlation`	1-样本相关系数
`chebychev`	切比雪夫距离	`spearman`	1-样本Spearman秩相关系数
`mahalanobis`	马氏距离	`jaccard`	1-Jaccard系数

linkage

Z=linkage(Y) 使用最短距离法生成具有层次结构的聚类树。输入矩阵 Y 为 pdist 函数输出的 $\frac{m(m-1)}{2}$ 维距离行向量

Z=linkage(Y,'method') 使用由 method 指定的算法计算生成聚类树。

参数含义参数含义
single 最短距离（默认） median 赋权重心距离
average 无权平均距离 ward 离差平方和方法
centroid 重心距离 weighted 赋权平均距离
complete 最大距离
输出的 Z 为包含聚类树信息的 $(m-1)\times 3$ 的矩阵。聚类树上的叶节点为原始数据集中的对象，由 $1\sim m$ 。它们是单元素的类，级别更高的类都是由它们生成的。对于 Z 中第 $j$ 行每个新生成的类，其索引为 $m + j$ ，其中 $m$ 为初始叶节点的数量。第1列和第2列，即 $Z (:, [1 : 2])$ 包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为 $m + j$ 。共有 $m - 1$ 个级别更高的类，它们对应于聚类树中的内部节点。第3列 $Z (:, 3)$ 包含了相应的在类中的两两对象之间的连接距离。
cluster

T=cluster(Z,'cutoff',c) 从连接输出中创建聚类。cutoff 为定义 cluster 函数如何生成聚类的阈值。当 $0 < c u t o f f < 2$ 时，cutoff作为不一致系数的阈值，不一致系数对聚类树中对象间的差异进行量化，如果连接的不一致系数大语阈值，则cluster 函数将其作为聚类分组的边界。当 $cutoff\geq2$ ，cutoff作为包含在聚类树中的最大分类数。

T=cluster(Z,'cutoff',c,'depth',d) 从连接输出中创建聚类。参数 depth 制定了聚类树中的层数，进行不一致系数计算的时候要用到。不一致系数将聚类树中两对象连接于相邻的连接进行比较。

输出 T 为大小为 $m$ 的向量，它用数字对每个对象所属的类进行表示。为了找到包含在类 $i$ 中的来自原始数据集的对象，可以用 find(T==i)
zsore(X)

参数	含义	参数	含义
`single`	最短距离（默认）	`median`	赋权重心距离
`average`	无权平均距离	`ward`	离差平方和方法
`centroid`	重心距离	`weighted`	赋权平均距离
`complete`	最大距离

对数据矩阵进行标准化处理，处理方法为
$\bar{x}_{ij}=\frac{x_{ij}-\bar{x}_j}{s_j}$
式中： $\bar{x}_j,s_j$ 为矩阵 $\mathbf{X}=(x_{ij})_{m\times n}$ 每一列的均值和标准差。

H=dendrogram(Z,P)

由 linkage 产生的数据矩阵 Z 画聚类树状图。 P 为节点数，默认值是30.
T=clusterdata(X,cutoff)

将矩阵 $\mathbf{X}$ 的数据分类。 $\mathbf{X}$ 为 $m\times n$ 矩阵，被看成 $m$ 个 $n$ 维行向量。它与以下几个命令的效果等价。
```
Y=pdist(X);
Z=linkage(Y,'single');
T=cluster(Z,cutoff);
```

R型聚类法

在实际工作中，变量聚类法的应用也是十分重要的。在系统分析嚯评估过程中，为了避免遗漏某些重要的因素，往往在一开始选取指标的时候，尽可能多地考虑所有的相关因素。而这样做的结果，则是变量过多，变量间的相关度高，给系统分析和建模带来了很大不便。因此，人们常常希望能够研究变量间的相似关系，按照变量的相似关系聚合成若干类，进而找出影响系统的主要因素。

变量相似性度量

在对变量进行聚类分析的时候，首先要确定变量的相似性度量，常用的变量相似性度量由两种
- 相关系数。
  
  记变量 $x_j$ 的取值 $(x_{1j},x_{2j},\cdots,x_{nj})^T\in \mathbf{R}^n,\ (j=1,2,\cdots,m)$ 。则可以用两个变量 $x_j$ 和 $x_k$ 的样本相关系数作为它们的相似性度量，即
  $r_{jk}=\frac{\sum \limits_{i=1} ^n (x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k)}{[\sum \limits_{i=1} ^n(x_{ij}-\bar{x}_j)^2\sum \limits _{i=1} ^n (x_{ik}-\bar{x}_k)^2]^\frac{1}{2}} \tag{10}$
  在对变量进行聚类分析时，利用相关系数矩阵式最多的。
- 夹角余弦
  
  可以直接用两变量 $x_j$ 和 $x_k$ 的夹角余弦 $r_{jk}$ 来定义它们的相似性度量
  $r_{jk}=\frac{\sum \limits _{i=1} ^n x_{ij}x_{ik}}{(\sum\limits_{i=1}^nx_{ij}^2\sum\limits_{i=1}^nx_{ik}^2)^\frac{1}{2}} \tag{11}$
各种定义的相似度量均应该具有以下两个性质

① $|r_{jk}|\leq 1$ 对于一切的 $j, k$ 。

② $r_{jk}=r_{kj}$ ，对于一切的 $j, k$ 。

$r_{jk}|$ 越接近1， $x_j$ 和 $x_k$ 越相关或约相似。 $r_{jk}|$ 越接近0， $x_j$ 和 $x_k$ 的相似性越弱。
变量聚类法

类似于样本集合聚类分析中最常用的最短距离法，最长距离法等，变量聚类法采用与系统聚类法相同的思路和过程。在变量聚类问题中，常用的由最长距离法和最短距离法等。
- 最长距离法
  
  在最长距离法中，定义两类变量的距离为
  $R(G_1,G_2)=\max_{x_j\in G_1\\x_k\in G_2}\{d_{jk}\} \tag{12}$
  式中： $d_{jk}=1-|r_{jk}|$ 或者 $d_{jk}^2=1-r_{jk}^2$ ，此时 $R(G_1,G_2)$ 与两类中相似性最小的两变量之间的相似性度量有关。
- 最短距离法
  
  在最短距离法中，定义两类变量的距离为
  $R(G_1,G_2)=\min_{x_j\in G_1\\x_k\in G_2}\{d_{jk}\} \tag{13}$
  式中： $d_{jk}=1-|r_{jk}|$ 或者 $d_{jk}^2=1-r_{jk}^2$ ，此时 $R(G_1,G_2)$ 与两类中相似性最大的两变量之间的相似性度量有关。
例：服装标准制定中的变量聚类法。在服装标准制定中，对成年女子各部位尺寸进行统计，通过14个部位的测量资料，获得各因素之间的相关系数表。

其中： $x_1$ 为上身长， $x_2$ 为手臂长， $x_3$ 为胸围， $x_4$ 为颈围， $x_5$ 为总肩围， $x_6$ 为总胸宽， $x_7$ 为后背宽， $x_8$ 为前腰节高， $x_9$ 为后腰节高， $x_{10}$ 为全身长， $x_{11}$ 为身高， $x_{12}$ 为下身长， $x_{13}$ 为腰围， $x_{14}$ 为臀围。用最大系数法对这14个变量进行系统聚类。具体代码及结果如下
```
a=textread('ch.txt');
d=1-abs(a); %进行数据变换，把相关系数转化为距离
d=tril(d);
b=nonzeros(d);
b=b';
z=linkage(b,'complete'); %按照最长距离法聚类
y=cluster(z,'maxclust',2); %把变量分为两类
h=dendrogram(z); %画出聚类图
```

L.A.M～F.C.B

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
数学建模预备知识——聚类分析

聚类分析通常，人们可以凭借惊讶拟合专业知识来实现分类。而聚类分析（Cluster Analysis）作为一种定量的方法，将从数据分析的角度，给出一个更准确更细致的分类工具。聚类分析又称群分析，是对多个样本或者指标进行定量分类的一种多元统计分析方法。对样本进行分类称为Q型聚类分析，对指标进行分类称为R型聚类分析。Q型聚类分析样本的相似性度量要用数量化的方法对事物进行分类，就必需要用数量化的方法描述事物之间的相似度。一个事物常常需要多个变量来刻画，如果对于一群有待分类的样本点需要用 ppp 个变
复制链接

扫一扫