聚类分析(理论知识篇)

最新推荐文章于 2021-06-08 17:55:49 发布

一脚一脚往前迈

最新推荐文章于 2021-06-08 17:55:49 发布

阅读量720

点赞数 3

分类专栏：笔记文章标签：聚类算法

本文链接：https://blog.csdn.net/qq_45149408/article/details/107145657

版权

笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

聚类分析（群分析）

Q型聚类分析（样本聚类）
- 样本的相似性度量
- 样本聚类
R型聚类分析（变量聚类）
- 变量的相似性度量
- 变量聚类法
聚类图

这是我学习数学建模的学习笔记，有来自教材的摘抄也有自己的一些理解，主要是为了方便学习而用；参考教材：《数学建模算法与应用(第二版)》；

Q型聚类分析（样本聚类）

样本的相似性度量

引言：要用数量化的方法对事物进行分类，就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画；若一个事物Z需要用p个变量来刻画，有Z∈R^p。对Z进行一次观测就会得到一组静态(quiet)的数据(样本点)，很自然的可以想到利用空间中的距离来度量样本点之间的相似程度；
记Ω是样本点集，距离d( · , · )是Ω×Ω→R⁺的一个函数，满足条件：
①正定性：d( x , y )≥0，x,y∈Ω
②对称性：d( x , y )=d( y , x )，x,y∈Ω
③三角不等式：d( x , y )≤d( x , z )+d( y , z )，x,y,z∈Ω
④d( x , y )=0 当且仅当 x=y

假设事物Z有两个样本点x,y，则有样本点之间的距离(d)的定义；

闵氏(Minkowski)距离：
$d_{q}(\overset{\rightarrow}x,\overset{\rightarrow}y) = [\sum_{k=1}^p|x_{k}-y_{k}|_{}^{q}]_{}^{\frac {1}{q}},q>0,$

绝对值距离
$d_{1}(\overset{\rightarrow}x,\overset{\rightarrow}y) = \sum_{k=1}^p|x_{k}-y_{k}|,(q=1)$
欧几里得(Euclid)距离
$d_{2}(\overset{\rightarrow}x,\overset{\rightarrow}y) = [\sum_{k=1}^p|x_{k}-y_{k}|_{}^{2}]_{}^{\frac {1}{2}},(q=2)$
切比雪夫(Chebyshev)距离
$d_{\infty}(\overset{\rightarrow}x,\overset{\rightarrow}y) = \underset{1\leq k \leq p}max|x_{k}-y_{k}|,(q \rightarrow +\infty)$
式中：x,y为来自p维总体Z的样本观测值；
缺点：
①数据要采用相同的量纲。(标准化处理)
②避免变量的多重相关性。
多重相关性

马氏(Mahalanobis)距离：
$d_{1}(\overset{\rightarrow}x,\overset{\rightarrow}y) = \sqrt{(\overset{\rightarrow}x,\overset{\rightarrow}y)_{}^{T}\Sigma_{}^{-1}(\overset{\rightarrow}x,\overset{\rightarrow}y) }$
式中：x,y为来自p维总体Z的样本观测值；Σ为Z的协方差矩阵，实际中Σ往往未知的，常需要用样本协方差来估计。

样本聚类

如果有两个样本类G1和G2，可以用下面的一系列方法度量样本类之间的距离(D)；

最短距离法 $\min_{xi\in G1,yi\in G2}\{d(\overset{\rightarrow}x_{i},\overset{\rightarrow}y_{i})\}$
直观意义：两个类中最近两点的距离；
最长距离法 $\max_{xi\in G1, yi\in G2}\{d(\overset{\rightarrow}x_{i},\overset{\rightarrow}y_{i})\}$
直观意义：两个类中最长两点的距离；
重心法 $D(G1,G2)=d(\overset{\overset{—}{\rightarrow}}x,\overset{\overset{—}{\rightarrow}}y),(\overset{\overset{—}{\rightarrow}}x,\overset{\overset{—}{\rightarrow}}y分别为G1,G2的均值)$
直观意义：两个类重心(均值)的距离；
类平均法
$D(G1,G2)=\frac{1}{n_{1}n_{2}}\sum_{xi\in G1} \sum_{yi\in G2}d(\overset{\rightarrow}x_{i},\overset{\rightarrow}y_{i})$
直观意义：两个类之间样本点距离的平均,n1,n2分别为G1,G2中的样本点个数；
离差平方和(ward)法 $G_{1}:D_{1}=\sum_{x_{i}\in G_{1}}(\overset{\rightarrow}x_{i}-\overset{\overset{—}{\rightarrow}}x_{1})_{}^{T}(\overset{\rightarrow}x_{i}-\overset{\overset{—}{\rightarrow}}x_{1}), G_{2}:D_{2}=\sum_{x_{j}\in G_{2}}(\overset{\rightarrow}x_{j}-\overset{\overset{—}{\rightarrow}}x_{2})_{}^{T}(\overset{\rightarrow}x_{j}-\overset{\overset{—}{\rightarrow}}x_{2}),\\ G_{1}\cup G_{2}:D_{12}=\sum_{x_{k}\in G_{1}\cup G_{2}}(\overset{\rightarrow}x_{k}-\overset{\overset{—}{\rightarrow}}x)_{}^{T}(\overset{\rightarrow}x_{k}-\overset{\overset{—}{\rightarrow}}x)\\D=D_{12}-D_{1}-D_{2}\\ {(\overset{\overset{—}{\rightarrow}}x_{1},\overset{\overset{—}{\rightarrow}}x_{2},\overset{\overset{—}{\rightarrow}}x分别为G_{1},G_{2},G_{1}\cup G_{2}的均值)}$

直观意义：D1,D2小，则它们能很好的各自聚成一类；D12很大，则这两类能充分分离，这时必然有D很大；则可认为G1和G2之间的距离很大；

matlab代码实现

R型聚类分析（变量聚类）

变量的相似性度量

相关系数
记变量x_j的取值(x_1j,x_2j,···,x_nj)^T∈(j=1,2,···,m)。则可以用变量x_j与x_k的样本相关系数作为它们的相似性度量，即：
$r_{jk}=\frac{\sum\limits_{i=1}^{n}(x_{ij}-\overset{—}{x_{j}})(x_{ik}-\overset{—}{x_{k}})}{[\sum\limits_{i=1}^{n}(x_{ij}-\overset{—}{x_{j}})_{}^{2}\sum\limits_{i=1}^{n}(x_{ik}-\overset{—}{x_{k}})_{}^{2}]_{}^{\frac{1}{2}}}=\frac{\sum\limits_{i=1}^{n}\overset{～}x_{ij}\overset{～}x_{ik}}{n-1}$
在对变量进行聚类分析时，利用相关系数矩阵是最多的。
夹角余弦
也可以直接利用两变量x_j与x_k的夹角余弦r_jk来定义它们的相似性度量，即：
$r_{jk}=\frac{\sum\limits_{i=1}^{n}x_{ij}x_{ik}}{(\sum\limits_{i=1}^{n}x_{ij}^{2}\sum\limits_{i=1}^{n}x_{ik}^{2})_{}^{\frac{1}{2}}}$
各种定义的相似度量均应具有以下两个性质：
①|r_jk|≤1，对于一切j，k
②r_jk=r_kj，对于一切j，k
|r_jk|越接近1，x_j与x_k相关性越强；反之，|r_jk|越接近0，x_j与x_k相关越弱；

变量聚类法

类似于样本集合聚类分析利用距离来度量相似程度。可以用下面的一系列方法度量变量之间的距离(R)；

最长距离法
定义距离两变量的距离为：
$R(G_{1},G_{2})=\underset{x_{j}\in G_{1},x_{k}\in G_{2}}{max\{d_{jk}\}}\\ d_{jk}=1-|r_{jk}|或d_{jk}^{2}=1-r_{jk}^{2}$
最短距离法
定义距离两变量的距离为：
$R(G_{1},G_{2})=\underset{x_{j}\in G_{1},x_{k}\in G_{2}}{min\{d_{jk}\}}\\ d_{jk}=1-|r_{jk}|或d_{jk}^{2}=1-r_{jk}^{2}$

matlab代码实现

聚类图

不管是样本聚类还是变量聚类都是通过选定距离算法来度量样本(变量)之间的相似程度；生成聚类图的步骤如下：
①选定距离算法来度量样本(变量)之间的相似程度；
②首先构造集合U₁包含n个基本的子集(类)，每个子集(类)只包含一个样本(变量)，每一个子集(类)的平台高度为0；
③合并距离最近的两子集(类)为一个新子集(类)，并且以这两子集(类)之间的距离值作为新子集(类)的平台高度；生成U₂包含新的n-1个基本的子集(类)；
④反复进行③最终U_n-1只有1个基本子集(类)时，聚类图生成；
⑤画出聚类图；
显然采用不同的距离算法有可能得到不同的聚类图；
生成聚类图的过程，每一步融合两个距离最近的子集(类)，得到一个新的子集(类)，这其实也是以集合U₁包含n个基本的子集(类)作为二叉树的初始节点，根据距离算法，生成的一颗二叉树；
假设根据距离算法，刚好按顺序融合；

步骤	初始集合(类)/(节点)	融合的集合(类)/(节点)	生成的新集合(类)/(节点)	平台高度h
1	x₁,x₂,x₃…x_n	x₁,x₂	x₁₂	h_i=0(i=1,2,…,n)
2	x₁₂,x₃…x_n	x₁₂,x₃	x₁₂₃	h_i=0(i=1,2,…,n),h₁₂=d₁₂
…	…	…	…
n-1	x_12…(n-1)	x_12…(n-1),x_n	x_12…n	h_i=0(i=1,2,…,n),h₁₂=d₁₂,h₁₂₃=d₁₂₃,…,h_12…n=d_12…n

一脚一脚往前迈

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
聚类分析(理论知识篇)

聚类分析（群分析）Q型聚类分析（样本聚类）样本的相似性度量样本聚类R型聚类分析（变量聚类）变量的相似性度量变量聚类法引言：要用数量化的方法对事物进行分类，就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画；若一个事物X(人)需要用n个变量来刻画，那么有X∈Rn。对一个人观测就会得到一组静态(quiet)的数据(样本点)，很自然的可以想到利用空间中样本点之间的距离来度量样本点之间的相似程度；Q型聚类分析（样本聚类）样本的相似性度量样本聚类R型聚类分析（变量聚类）变量的相似
复制链接

扫一扫