曲线聚类_K-means聚类到底应该聚为几类?

文章探讨了K-means聚类分析中确定聚类数量的挑战,通过实例分析了二手房市场数据,尝试了3类、4类、5类和6类的聚类效果。讨论了技术、业务、管理和成本角度的选择标准,强调了聚类结果的解释性和实用性。
摘要由CSDN通过智能技术生成

de74f5ba86cb90a48afb771622fd624f.png

最近在聚类分析学习的过程中,对于K-means聚类到底应该聚为几类,在此与大家一起来探讨一下。首先,我们来看看聚类分析的步骤流程,如下图:

c59053582b37e80c6a4e2da9b8e50a09.png
聚类分析步骤流程

对于我的疑问,我将以前段时间我分享的赣州市二手房市场分析与回归建模案例中K-means聚类分析的内容来展现,希望大家也能发表自己的观点,共同探讨:

  • 聚类分析要求:我们知道这样一句话“物以类聚,人以群分”,那我们对于实际工作中遇到的聚类分析工作,我们应该如何划分类别呢?
  • 根据聚类原则:组内差距最小化,组间差距最大化;

之前我在案例中,对二手房做聚类分析,分为了三类,但在聚类结果解释的过程中,发现第一类和第三类不是很好解释,在业务层面来说甚至有些不合理,于是我有了第一个疑问,聚类分析——到底应该聚为几类?,相信也是很多人在做K-means聚类是共同的疑问。

  • 降维分析——主成分分析

在聚类过程中,我们选择总价、均价、面积、房间数量和楼高5个连续变量,我们无法在5维空间对个案属于第几类进行观察,同时也为了避免变量共线性的问题,下面我将对5个变量进行降维,利用主成分分析法得到两个主成分因子,下面我们一起来看看:

28516f9d46607b602b4e7f2789306a43.png

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值