spss--K_means快速聚类（随笔笔记）以及和Python实现K_means聚类的比较

最新推荐文章于 2024-08-26 16:59:04 发布

PY_smallH

最新推荐文章于 2024-08-26 16:59:04 发布

阅读量2.4k

点赞数

分类专栏：统计学文章标签： python 机器学习 spss

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PY_smallH/article/details/120783492

版权

本文介绍了KMeans聚类分析的基本概念和原理，通过SPSS进行了实际操作，展示了如何对薪资数据进行分类，并与Python实现的KMeans聚类进行了比较，指出Python中的KMeans++初始化优化算法可能导致分类结果更为均匀。

摘要由CSDN通过智能技术生成

聚类分析原理简介：
聚类分析是对样品或变量进行分类的一种多元统计方法，目的在于将相似的实物归类。
聚类分析并不是一种纯粹的统计技术，在方法基础上与分布理论和显著性无关，一般不用于从样本推断总体的研究。在市场研究中，聚类分析主要用于市场细分、研究消费者行为，寻找新的潜在市场和左尾其他统计分析的预处理等。

聚类分析的基本概念
聚类（clustering）是将某个对象集划分为若干组（class或cluster）的过程，使得同一个组内的数据对象是具有较高的相似度，而不同的组中间的数据对象是不相似的，相似或者不相似的定义基于属性变量的取值确定，一般采用个对象间的距离（欧几里得距离）来表示。
聚类分析属于无监督的学习方法，它不依赖事先已知的数据分类，也不依赖标有数据类别的训练样本集合。正因为如此，聚类分析是一种通过观察的学习方法，而不是通过示例取学习规则。

思想：
聚类算法就是用K_Means聚类实现的，用欧几里得距离为依据判别点之间的相似性。

如果二维平面上的一堆点要分成三类，那么首先会随机选择三个点，然后平面中所有的点都会和这三个选择的中心点求距离，离哪个点近，就划分到哪个中心点类别中，初步的标记好三个分类。
然后这三个分类再对每个分类求其质心，得出三个中心点。这个求质心的过程，是找出一个点，使得这个点到所有的点的距离最小化。因为存在无数个点使得距离最大，单总有一个点，会得到最小的距离。求出中心点后，在重新计算所有点到这三个中心点的距离，重新划

最低0.47元/天解锁文章

关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
spss--K_means快速聚类（随笔笔记）以及和Python实现K_means聚类的比较

聚类分析原理简介：聚类分析是对样品或变量进行分类的一种多元统计方法，目的在于将相似的实物归类。聚类分析并不是一种纯粹的统计技术，在方法基础上与分布理论和显著性无关，一般不用于从样本推断总体的研究。在市场研究中，聚类分析主要用于市场细分、研究消费者行为，寻找新的潜在市场和左尾其他统计分析的预处理等。聚类分析的基本概念聚类（clustering）是将某个对象集划分为若干组（class或cluster）的过程，使得同一个组内的数据对象是具有较高的相似度，而不同的组中间的数据对象是不相似的，相似或者不相似的
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。