前言:在谈论K-means之前,我们是不是会联想到KNN算法呢,感觉这两个好像啊,其实两者差别还是很大的,一个是有监督学习算法,有对应的类别输出,一个是无监督的学习算法,没有样本输出,而且KNN算法是基于实例的一种的算法,KNN只是简单地把训练样例存储起来,并没有中间的训练过程,而K-mans算法确是有算法的训练过程
当然,两者也有一些相似点,两个算法都蕴含着要找出某一个点和另一个点最近的点,两者都利用了最近邻的思想。
1、什么是聚类分析?
1.1 聚类的定义:
聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大,而类别间的数据相似度较小。
- 聚类:一种把相似的数据合并成一组(group)的方法。就是我们常说的“人以群分,物以类聚”
- 聚类是一种“非监督的学习算法”——事先并不需要有类别标注的样本来辅助学习,而是直接从数据中学习模式
- 所以,聚类是一种“数据探索”的分析方法:它帮助我们在大量的数据中探索和发现数据的结构。