最近在聚类分析学习的过程中,对于K-means聚类到底应该聚为几类,在此与大家一起来探讨一下。首先,我们来看看聚类分析的步骤流程,如下图:
对于我的疑问,我将以前段时间我分享的赣州市二手房市场分析与回归建模案例中K-means聚类分析的内容来展现,希望大家也能发表自己的观点,共同探讨:
- 聚类分析要求:我们知道这样一句话“物以类聚,人以群分”,那我们对于实际工作中遇到的聚类分析工作,我们应该如何划分类别呢?
- 根据聚类原则:组内差距最小化,组间差距最大化;
之前我在案例中,对二手房做聚类分析,分为了三类,但在聚类结果解释的过程中,发现第一类和第三类不是很好解释,在业务层面来说甚至有些不合理,于是我有了第一个疑问,聚类分析——到底应该聚为几类?,相信也是很多人在做K-means聚类是共同的疑问。
- 降维分析——主成分分析
在聚类过程中,我们选择总价、均价、面积、房间数量和楼高5个连续变量,我们无法在5维空间对个案属于第几类进行观察,同时也为了避免变量共线性的问题,下面我将对5个变量进行降维,利用主成分分析法得到两个主成分因子,下面我们一起来看看: