需要源码请点赞关注收藏后评论区留言私信~~~
聚类(Clustering) 一个重要的非监督学习方法
聚类-即是将相似的对象组成多个类簇,以此来发现数据之间的关系
聚类(簇):数据对象的集合 在同一个聚类(簇)中的对象彼此相似 不同簇中的对象则相异
聚类是一种无指导的学习:没有预定义的类编号
聚类分析的数据挖掘功能 作为一个独立的工具来获得数据分布的情况
作为其他算法(如:特征和分类)的预处理步骤
聚类的“好坏”没有绝对标准
一、K-Means聚类
1. 算法原理
给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇, k<=n,而且满足
1)每个组至少包含一个对象; 2)每个对象属于且仅属于一个组
划分时要求同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的原理或不同
一般,簇的表示有两种方法:
1)k-平均算法,由簇的平均值来代表整个簇;
2)k中心点算法,由处于簇的中心区域的某个值代表整个簇
2. K-means算法