均值聚类法优势_SPSS 聚类分析之两阶聚类

最新推荐文章于 2023-02-07 13:08:33 发布

weixin_39929566

最新推荐文章于 2023-02-07 13:08:33 发布

阅读量1k

点赞数

文章标签：均值聚类法优势

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39929566/article/details/112595182

版权

本文介绍了SPSS中的二阶聚类分析，特别强调其优势在于可同时处理类别和连续变量，自动确定最佳分类数，以及在大数据集上的高效处理。通过汽车市场案例，展示了如何进行聚类分析，包括距离测量、聚类数量选择和离群值处理。最终，分析结果揭示了不同车型的特征分布，突显了二阶聚类在市场研究和数据分析中的实用价值。

摘要由CSDN通过智能技术生成

定义：顾名思义就是整个聚类过程分为前后两个大的板块来完成。

第一步对所有记录进行距离考察，构建CF分类特征树，同一个树节点内的记录相似度高，相似度差的记录则会生成新的节点。第二步，在分类树的基础上，使用凝聚法对节点进行分类，每一个聚类结果使用BIC或者AIC进行判断，得出最终的聚类结果。

背景：样本数据聚类效果的好与坏，参与聚类的变量在其中的作用至关重要。而现实中，聚类变量可能是连续数据，也可能是类别数据，所以诸如层次聚类和K均值聚类这样的统计方法，它们在类别变量数据面前就显得不足够实用了。

二阶聚类法，则可以完美解决这个问题。它的优势至少表现在以下几个方面：

可同时基于类别变量和连续变量进行聚类；
可自动确定最终的分类个数；
可处理大型数据集；

前提假设：其实稍微违反假设条件其实也不要紧，结果很稳健，其会自动剔除异常值

变量间彼此独立
分类变量服从多项分布，连续变量服从正态分布

特点：

处理对象：分类变量和连续变量
自动决定最佳分类数
快速处理大数据集

1.问题描述：

汽车生产厂商需要有效的方法评价当前市场情况，了解市场需要，找到受市场欢迎的，有市场竞争力的车型配置。案例将采用种类、价格、引擎型号、马力、轴距、宽度、长度、限重、储油量、用油功效共10个变量对152条有效记录进行自动聚类。

2.假设检验

变量独立性和连续变量服从正态分布检验这里不做赘述

3.SPSS操作

将唯一一个类别型变量“种类”移入分类变量框，并将“价格”、“引擎型号”、“马力”、“用油功效”等9个连续型变量移入连续变量框内

【距离测量】：确定计算两个变量之间的相似性，对数相似值系统使用对数似然距离计算

最低0.47元/天解锁文章

weixin_39929566

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
均值聚类法优势_SPSS 聚类分析之两阶聚类

定义：顾名思义就是整个聚类过程分为前后两个大的板块来完成。第一步对所有记录进行距离考察，构建CF分类特征树，同一个树节点内的记录相似度高，相似度差的记录则会生成新的节点。第二步，在分类树的基础上，使用凝聚法对节点进行分类，每一个聚类结果使用BIC或者AIC进行判断，得出最终的聚类结果。背景：样本数据聚类效果的好与坏，参与聚类的变量在其中的作用至关重要。而现实中，聚类变量可能是连续数据，也可能是类别...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。