目录
一、算法理论知识
聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,聚类就是一种发现这种内在结构的技术,聚类技术经常被称为无监督学习。
k 均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目 k,k 由用户指定,k 均值算法根 据某个距离函数反复把数据分入 k 个聚类中。
(1)K 均值聚类算法
K-means 算法也称为 K_ 均值算法,用于聚类算法。聚类是一种无监督学习,他将相
似的对象归于一个簇中,簇中心通过簇中所有点的均值来计算。聚类算法与分类算法的
主要区别就是分类的目标类别已知,而聚类的目标类别未知。
簇:所有数据点的点集合,簇中的对象是相似的
质心:簇中所有点的中心(由簇中所有点的均值求得)
SSE:Sum of Sqared Error 平方误差和,SSE 越小表示越接近质心