刚刚写了篇分级聚类的,趁着余热,再写一下关于k-均值聚类的。
为了突出k-均值聚类的特点,先黑一下分级聚类。跟k-均值聚类比起来,分级聚类算法有一下缺点:第一,的那个没有额外投入的时候,树形试图是不会真正将数据拆分成不同组的。第二,分级聚类的计算算法计算量相当大。当两个节点合并之后,节点之间的距离需要重新计算,当数据量较大时,计算量急速上升,不利于聚类分析。
接着,开始介绍k-均值聚类。k-均值聚类算法开始时,先随即生成k个中心位置,然后根据一下算法执行:
1,计算各个节点到各个中心点的距离
2,对于每个节点,找到与之最近的中心点,将其归为该类。
3,对步骤二划分好的的每一类中的节点取均值,作为新的中心点。
4,重复执行第一步、第二步、第三步。
多次迭代之后,聚类效果达到当前最佳。下面是图片演示: