spss--K_means快速聚类(随笔笔记)以及和Python实现K_means聚类的比较

本文介绍了KMeans聚类分析的基本概念和原理,通过SPSS进行了实际操作,展示了如何对薪资数据进行分类,并与Python实现的KMeans聚类进行了比较,指出Python中的KMeans++初始化优化算法可能导致分类结果更为均匀。
摘要由CSDN通过智能技术生成

聚类分析原理简介
聚类分析是对样品或变量进行分类的一种多元统计方法,目的在于将相似的实物归类。
聚类分析并不是一种纯粹的统计技术,在方法基础上与分布理论和显著性无关,一般不用于从样本推断总体的研究。在市场研究中,聚类分析主要用于市场细分、研究消费者行为,寻找新的潜在市场和左尾其他统计分析的预处理等。

聚类分析的基本概念
聚类(clustering)是将某个对象集划分为若干组(class或cluster)的过程,使得同一个组内的数据对象是具有较高的相似度,而不同的组中间的数据对象是不相似的,相似或者不相似的定义基于属性变量的取值确定,一般采用个对象间的距离(欧几里得距离)来表示。
聚类分析属于无监督的学习方法,它不依赖事先已知的数据分类,也不依赖标有数据类别的训练样本集合。正因为如此,聚类分析是一种通过观察的学习方法,而不是通过示例取学习规则。

思想
聚类算法就是用K_Means聚类实现的,用欧几里得距离为依据判别点之间的相似性。

  1. 如果二维平面上的一堆点要分成三类,那么首先会随机选择三个点,然后平面中所有的点都会和这三个选择的中心点求距离,离哪个点近,就划分到哪个中心点类别中,初步的标记好三个分类。

  2. 然后这三个分类再对每个分类求其质心,得出三个中心点。这个求质心的过程,是找出一个点,使得这个点到所有的点的距离最小化。因为存在无数个点使得距离最大,单总有一个点,会得到最小的距离。求出中心点后,在重新计算所有点到这三个中心点的距离,重新划

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值