数学建模——多元分析(1)——聚类分析

本文介绍了聚类分析的基础知识,包括相似性度量和类间相似性度量的方法,如Minkowski距离、马氏距离、最短距离法等。通过实例展示了如何计算样本和类间的距离,强调了数据标准化和处理多重相关性的重要性。最后,讨论了系统聚类法及其在构建聚类图中的应用。

一、聚类分析

1. 概述

  1. 聚类分析(cluster analyses)可作为一种定量方法,从数据分析的角度,给出一个准确、细致的分类工具。

2. 相似性度量

2.1. 样本的相似性度量

1. 重点内容
  1. 核心思想用距离来度量样本点间的相似程度。距离近的样品聚为一类。
    在这里插入图片描述
  2. 在聚类分析中,对于定量变量,常用的是 Minkowski 距离
    在这里插入图片描述
    在这里插入图片描述
  3. 在 Minkowski 距离中,常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。
  4. 采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。
  5. 在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性。多重相关性(multicollinearity)所造成的信息重叠,会片面强调某些变量的重要性。
  6. 由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下:
    在这里插入图片描述
    其中x, y为来自p 维总体Z的样本观测值,Σ为Z的协方差矩阵,实际中Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响
  7. 此外,还可采用样本相关系数夹角余弦和其它关联性度量作为相似性度量。
2. 示例

数学建模中,使用Python进行聚类分析可以通过导入相关库来实现。首先,我们需要导入numpy、matplotlib、scipy、xlrd、pandas、sklearn等库来支持聚类分析的各个环节。聚类分析是一种研究问题的多元统计方,也可以称为群分析。它的目的是将具有相似元素的集合聚集到一类中。聚类分析可以采用定性研究和定量研究的方,通过选取共同指标,分析元素指标值之间的差距,从而实现分类的目的。在聚类分析中,常用的分类方有Q型分类和R型分类。Q型分类是对样品进行聚类,而R型分类是对指标进行聚类。在使用Python进行聚类分析时,我们重点讲解Q型分类。聚类分析的一般步骤包括:数据准备、选择合适的聚类算、确定聚类数目、进行聚类分析、评估聚类结果。这些步骤可以帮助我们在数学建模中使用Python进行聚类分析。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [【数学建模聚类分析——python实现](https://blog.csdn.net/m0_56120502/article/details/124509024)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.Persimmon

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值