Cluster Analysis
聚类分析(Cluster Analysis)的定义:
- 非监督学习分析手段的一种.考虑给的数据的特性,定义相似数据集团(聚类)的分析技巧.
- 每个数据只能对应一个聚类的独有(Exclusive) 方式
k-均值聚类(k-means Clustering)
k-均值聚类是 采用分割空间的原理具有使各观测值处于最接近重心聚类的聚类化方法。
特征:
- 非层次性: 聚类的数量已经定好 (比如要分为2个group)
- 定的阶段到模型集中时反复的运行运算法则
- 独立变量: 连续变量
- 从属变量:用户定义类别
重心点:数据位置数值化后求的平均位置点。
参考:https://www.cnblogs.com/haoqingchuan/articles/2359104.html
https://blog.csdn.net/fengbingchun/article/details/79276668
K-均值聚类原理
Step0. 初始指定K个基准点
Step1. 对各数找出最近的基准点
Step2. 计算绑定在一起数据的重心点(Centroid)
Step3 设定计算出来的重心点为新的基础点
反复Step1到Step3。