算法整体流程:
创建k个点作为起始质心(经常是随机选择)
当任意一个点的簇分配结果发生改变时
对数据集中的每个数据点
对每个质心
计算质心与数据点之间的距离
将数据点分配到距其最近的簇
对每一个簇,计算簇中所有点的均值并将均值作为质心
类和聚类的区别:
分类:事先定义了各个明确的类别,根据目标是否满足各个类别的特点来划分数据,也就是把不同目标根据不同特点划分到不同类别中去;
聚类:事先只知道要把数据分成几类(如K类),而不知道具体的类别是什么,然后在数据之间按照相关性把相似的数据聚成一类,再根据聚类的结果来分析聚成的这一类有什么特点。
也就是说,分类后的结果是每一个目标属于某一个类别,相当于给该目标贴上来标签。而聚类是把相似的目标先归为一个整体,再根据这个整体所具有的特征来判断这是什么类别。
算法主要内容:
首先,随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中,具体来讲,为每个点找距其最近的质心,并将其分配给该质心所对应的簇。这一步完成之后,每个簇的质心更新为该簇所有点的平均值。
注意:
程序后面调用kmeans函数时需要将每一个标签内的点统计起来,再计算标签内像素均值(标签内所有点灰度值之和除以点个数),并将标签和标签内像素均值重新排序以做调试用。
最后将排序好的标签重新给每个标签赋值显示颜色