一、前期准备
1.收集数据
2.描述数据集
二、原理分析
1.K-Means聚类法
这要从聚类开始说起:
聚类
①是对于静态数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。
②是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,让在同一个子集中的成员都有相似的一些属性。
③是其他分析算法的一个预处理步骤。
④是一种无监督的分类
聚类分析的算法分类:
划分法(分割式)、层次式(阶层式)、基于密度的方法、基于网格的方法、基于模型的方法
而K-means与fuzzy c-means算法都属于划分法
划分法概念:
给定一个有N个元组或者记录的数据集,构造K(K<N)个分组,每一个分组就代表一个聚类
Ⅰ每一个分组至少包含一个数据记录(在某些模糊聚类算法中可放宽)
Ⅱ 每一个数据记录属于且仅属于一个分组
对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方式改变分组,使得每一次改进之后的分组方案都较前一次好。
好的标准:同一分组中的记录越近越好,不同分组中的记录越远越好。
K-Means聚类法:
----将N个数据依照其数据特征聚类为K类的聚类算法,K为一正整数----目标在于求各个数据与其对应聚类中心点距离平方和的最小值
Ji为第i个聚类的目标函数<