聚类分析的原理
聚类简单来说就是将样本点进行分类
分类的原则:根据样本点的距离,选择合适中心点来进行分类
样本距离:欧氏距离和切比雪夫距离等
聚类分析常用图像
- 散点图
散点图上样本点的距离很好的显示了其聚类程度
谱系图
怎么看spss的谱系图?从纵轴聚类距离(有数字那块)作垂线,接触多少条边产生多少个交点就分为多少类
理解为把下图的每一个方框叠加在一起了
样本距离和类间距离
核心概念:类间距离是基于样本点距离进行计算;类间距离不同于样本点距离
类间距离计算公式
聚类分析算法
最短样本距离法
反复使用类距离中的最短距离法聚类
- 一个样本点就是一个类
- 选类间距离最小者,将其样本点聚为一类
- 重新计算类间距离
Kmean聚类算法
说人话就是提前给定类簇(簇理解为一个群体)的中心点,然后计算每一个类簇(一开始每一个样本点就是一个类簇)的平均距离,分配样本点,然后重新分配新的中心点,直到中心点不再变化或者达到指定的迭代次数
Kmean++聚类算法
特征:初值来源于已有样本点
聚类中心距离要求尽可能远,且从样本点中选取
DBSCAN算法
根据密度,不需要确定中心点,类簇数量不定
SPSS
分析-分类-K均值或者系统聚类
spss不支持DBSCAN算法
系统聚类包含最短距离聚类
导入数据后应该进行数据处理
正向化和标准化!!!
谱系图的分析
见上
类中的样本点到对应聚类中心的距离之和成为聚合系数
聚类指标函数的放缓点决定了聚类K值的选取原则
制图
选择模型和变量
id标签就是每个样本点的身份,要勾选组/点 ID标签后才能出现,需要手动设置