2017-12-31 19:08:37
k-平均算法源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-means的目的是:把样本划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。
这个问题在计算上是困难的(NP困难),不过存在高效的启发式算法。一般情况下,都使用效率比较高的启发式算法,它们能够快速收敛于一个局部最优解。这些算法通常类似于通过迭代优化方法处理高斯混合分布的最大期望算法(EM算法)。
K-means比较适合数据类型是球状的数据,也就是不同的簇的形状是一球一球的。
一、簇评估
聚类问题由于是无监督的问题,可以说是没有什么标准答案的,也就是说怎么分类都是可能的。
另外坐标的变换也是会影响最终的结果的: