聚类分析——matlab

一,聚类分析的基础知识
1五种基本聚类方法
1.1基于分层的聚类
1.2.基于划分的聚类
1.3.基于密度的聚类
1.4.基于网格的聚类
1.5.基于模型的聚类
2.几种距离的计算
Ω 是样本点集,距离 d ( , ) Ω×Ω → R + 的一个函数,满足条件:
1 d ( x , y ) 0 x , y ∈Ω
2 d ( x , y ) = 0 当且仅当 x = y
3 d ( x , y ) = d ( y , x ) x , y ∈Ω
4 d ( x , y ) d ( x , z ) + d ( z , y ) x , y , z ∈Ω
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类
分析中,对于定量变量,最常用的是
Minkowski 距离

q = 1,2 q → +∞ 时,则分别得到
2.1绝对值距离
2.2欧氏距离

2.3byshev 距离

Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交
旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换
后样本点间的距离和变换前完全相同。
值得注意的是在采用
Minkowski 距离时,一定要采用相同量纲的变量。如果变量
的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计
算 距 离 。 在 采 用
Minkowski 距 离 时 , 还 应 尽 可 能 地 避 免 变 量 的 多 重 相 关 性
multicollinearity )。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。
由于
Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下
2.4马氏( Mahalanobis )距离

其中
x , y 为来自 p 维总体 Z 的样本观测值, Σ Z 的协方差矩阵,实际中 Σ 往往是不
知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量
纲的影响。
此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年
来随着数据挖掘研究的深入,这方面的新方法层出不穷。
3.数据规范化
3.1按小数定标规范化
3.2最小-最大值规范化
3.3z-score规范化
4. 类与类间的相似性度量
如果有两个样本类 G 1 G 2 ,我们可以用下面的一系列方法度量它们间的距离:
4.1最短距离法
它的直观意义为两个类中最近两点间的距离
4.2最长距离法
它的直观意义为两个类中最远两点间的距离

4.3重心法
其中 x , y 分别为 G 1 , G 2 的重心
4.4类平均法
它等于 G 1 , G 2 中两两样本点距离的平均,式中 n 1 , n 2 分别为 G 1 , G 2 中的样本点个数
4.5离差平方和法
事实上,若 G 1 , G 2 内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类
又能够充分分离(即
D 12 很大),这时必然有 D = D 12 - D 1 - D 2 很大。因此,按定义可
以认为,两类
G 1 , G 2 之间的距离很大。离差平方和法最初是由 Ward 1936 年提出,
后经
Orloci 等人 1976 年发展起来的,故又称为 Ward 方法。

5.matlab中相关函数说明

5.1 pdist函数

  调用格式:Y=pdist(X,’metric’)

  说明:用 ‘metric’指定的方法计算 X 数据矩阵中对象之间的距离。

  X:一个m×n的矩阵,它是由m个对象组成的数据集,每个对象的大小为n(即n个特征值)。

metric’取值如下:

‘euclidean’:欧氏距离(默认);‘seuclidean’:标准化欧氏距离;

‘mahalanobis’:马氏距离;‘cityblock’:布洛克距离;

‘minkowski’:明可夫斯基距离;‘cosine’:

‘correlation’:

‘jaccard’:‘chebychev’:Chebychev距离。

5.2 squareform 函数

  调用格式:Z=squareform(Y,..)

对于M个点的数据集X,pdist之后的Y将是具有M*(M-1)/2个元素的行向量。

Y这样的显示虽然节省了内存空间,但对用户来说不是很易懂,如果需要对这些距离进行特定操作的话,也不太好索引。MATLAB中可以用squareform把Y转换成方阵形式,方阵中<i,j>位置的数值就是X中第i和第j点之间的距离,显然这个方阵应该是个对角元素为0的对称阵。

5.3 linkage函数

  调用格式:Z=linkage(Y,‘method’)

  输入值说明:Y为pdist函数返回的M*(M-1)/2个元素的行向量,用‘method’参数指定的算法计算系统聚类树。

method:可取值如下:

‘single’:最短距离法(默认);

‘complete’:最长距离法;

‘average’:未加权平均距离法;

‘weighted’: 加权平均法;

‘centroid’:质心距离法;

‘median’:加权质心距离法;

‘ward’:内平方距离法(最小方差算法)

   返回值说明:Z为一个包含聚类树信息的(m-1)×3的矩阵,其中前两列为索引标识,表示哪两个序号的样本可以聚为同一类,第三列为这两个样本之间的距离。另外,除了M个样本以外,对于每次新产生的类,依次用M+1、M+2、…来标识。

5.4 dendrogram函数

  调用格式:[H,T,…]=dendrogram(Z,p,…)

  说明:生成只有顶部p个节点的冰柱图(谱系图)。

  为了表示Z矩阵,我们可以用更直观的聚类数来展示,方法为:dendrogram(Z), 产生的聚类数是一个n型树,最下边表示样本,然后一级一级往上聚类,最终成为最顶端的一类。纵轴高度代表距离列。

  另外,还可以设置聚类数最下端的样本数,默认为30,可以根据修改dendrogram(Z,n)参数n来实现,1<n<M。dendrogram(Z,0)则表n=M的情况,显示所有叶节点。

5.5 cophenet函数

  调用格式:c=cophenet(Z,Y)

  说明:利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。

cophene检验一定算法下产生的二叉聚类树和实际情况的相符程度,就是检测二叉聚类树中各元素间的距离和pdist计算产生的实际的距离之间有多大的相关性,另外也可以用inconsistent表示量化某个层次的聚类上的节点间的差异性。

5.6 cluster 函数

  调用格式:T=cluster(Z,…)

  说明:根据linkage函数的输出Z 创建分类。

5.7 clusterdata 函数

  调用格式:T=clusterdata(X,…)

  说明:根据数据创建分类。

   When 0 < CUTOFF < 2, T = CLUSTERDATA(X,CUTOFF) is equivalent to:

      Y = pdist(X, 'euclid');

      Z = linkage(Y, 'single');

      T = cluster(Z, 'cutoff', CUTOFF);

 

   When CUTOFF is an integer >= 2, T = CLUSTERDATA(X,CUTOFF) isequivalent

   to:

 

      Y = pdist(X,'euclid');

      Z = linkage(Y,'single');

      T = cluster(Z,'maxclust',CUTOFF)

5.8 Inconsistent

S_i是除了叶节点外,所有深度低于(M+i)不超过DEPTH的节点(包括M+i节点自身)

而Inconsistent计算的是S_i的距离的平均值。

 Then

      Y(i,1) = mean(Z(S_i,3)), the mean height of nodes in S_i

      Y(i,2) = std(Z(S_i,3)), the standard deviation of node heights in S_i

      Y(i,3) = length(S_i), the number of nodes in S_i

      Y(i,4) = (Z(i,3) - Y(i,1))/Y(i,2), the inconsistent value

   The default value for DEPTH is 2.

计算深度会影响不一致系数的计算结果,计算深度比较大时,不一致系数的增量能反映出当前步引入的新样品与该类中心(涉及该类中所有样品)的距离远近,计算深度比较小时,不一致系数的增量仅能反映出当前步引入的新样品与上几步聚类中涉及的样品的中心的距离远近。


  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Matlab提供了一系列函数用于聚类分析。一种常用的方法是基于距离的聚类分析。以下是一种实现聚类分析的具体步骤: 1. 构造n个类,每个类包含且只包含一个样本。 2. 计算n个样本两两之间的距离,得到距离矩阵D0。 3. 合并距离最近的两个类为一个新类。 4. 计算新类与当前各类的距离。如果类的个数等于1,则转到步骤5;否则返回步骤3。 5. 画出聚类图。 6. 根据聚类图确定类的个数和每个类所包含的样本数,并对每个类做出解释。 在Matlab中,可以使用normalize函数对数据进行标准化处理。该函数可以选择进行Min-Max标准化或Z-score标准化。具体代码如下: ``` function [normalized_data = normalize(source_data, kind) % 数据的标准化(归一化)处理 % 参数 source_data 可用格式的源数据 % 参数 kind 代表何种归一化方式,默认为1。1代表Min-Max标准化,2代表Z-score标准化。 % 返回归一化后的数据 if nargin < 2 % 如果参数少于2个,默认进行Min-Max标准化 kind = 1; end [m, n = size(source_data); normalized_data = zeros(m, n); % Min-Max标准化(Min=0,Max=1) if kind == 1 for i = 1:n ma = max(source_data(:, i)); mi = min(source_data(:, i)); normalized_data(:, i) = (source_data(:, i) - mi) / (ma - mi); end end % Z-score标准化 if kind == 2 for i = 1:n mea = mean(source_data(:, i)); st = std(source_data(:, i)); normalized_data(:, i) = (source_data(:, i) - mea) / st; end end end ``` 使用该函数可以对数据进行标准化处理。 在Matlab中,可以使用随机生成数据的方式进行聚类分析的可视化。例如,使用高斯分布(正态分布)随机生成多个中心以及标准差,然后将这些数据点进行聚类分析。具体代码如下: ``` s = rng(5,'v5normal'); mu = round((rand(3,2)-0.5)*19) 1; sigma = round(rand(3,2)*40)/10 1; X = [mvnrnd(mu(1,:),sigma(1,:),200);... ``` 这段代码将生成三个中心点以及相应的标准差,然后使用这些参数生成数据点进行聚类分析。 因此,在Matlab中进行聚类分析可以通过以上步骤和函数实现。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [聚类分析matlab](https://blog.csdn.net/ww2011/article/details/121022190)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Matlab聚类分析(Kmeans)](https://blog.csdn.net/qq_44646352/article/details/124266723)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [matlab聚类分析代码](https://download.csdn.net/download/weixin_43106441/10714940)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值