数模·聚类分析

聚类分析的原理

聚类简单来说就是将样本点进行分类
分类的原则:根据样本点的距离,选择合适中心点来进行分类
样本距离:欧氏距离和切比雪夫距离等

聚类分析常用图像

  • 散点图

散点图上样本点的距离很好的显示了其聚类程度

在这里插入图片描述

谱系图

怎么看spss的谱系图?从纵轴聚类距离(有数字那块)作垂线,接触多少条边产生多少个交点就分为多少类
理解为把下图的每一个方框叠加在一起了

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

样本距离和类间距离

核心概念:类间距离是基于样本点距离进行计算;类间距离不同于样本点距离
在这里插入图片描述

类间距离计算公式

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

聚类分析算法

最短样本距离法

反复使用类距离中的最短距离法聚类

  • 一个样本点就是一个类
  • 选类间距离最小者,将其样本点聚为一类
    在这里插入图片描述
  • 重新计算类间距离
    在这里插入图片描述

Kmean聚类算法

说人话就是提前给定类簇(簇理解为一个群体)的中心点,然后计算每一个类簇(一开始每一个样本点就是一个类簇)的平均距离,分配样本点,然后重新分配新的中心点,直到中心点不再变化或者达到指定的迭代次数

在这里插入图片描述

Kmean++聚类算法

特征:初值来源于已有样本点
聚类中心距离要求尽可能远,且从样本点中选取

在这里插入图片描述

DBSCAN算法

根据密度,不需要确定中心点,类簇数量不定

在这里插入图片描述

SPSS

分析-分类-K均值或者系统聚类

spss不支持DBSCAN算法
系统聚类包含最短距离聚类

在这里插入图片描述

导入数据后应该进行数据处理

正向化和标准化!!!

谱系图的分析

  • 怎么看spss的谱系图

见上

  • 聚类分析的指标:聚合系数

类中的样本点到对应聚类中心的距离之和成为聚合系数
聚类指标函数的放缓点决定了聚类K值的选取原则

在这里插入图片描述

在这里插入图片描述

制图

选择模型和变量
id标签就是每个样本点的身份,要勾选组/点 ID标签后才能出现,需要手动设置

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值