在K-Means 算法中,最终的聚类效果受初始的聚类中心的影响,K-Means++算法的提出,为选择较好的初始聚类中心提供了依据(选择的的初始聚类中心尽可能的远)
但是算法中,聚类的类别个数K仍需事先确定,对于类别个数事先未知的数据集,K-Means和K-Means++将很难对其精确求解。
Mean Shift 算法,又被称作均值漂移算法,与K-Means算法一样,都是基于聚类中心的聚类算法。
优点:不需要提前指定聚类类别个数
缺点:计算量大
在Meanshift算法中,聚类中心是通过在给定区域中的样本的均值来确定的,通过不断的迭代更新聚类中心,直到最终的聚类中心不再改变为止。
Mean Shift向量
对于给定的n位空间 R n R^n Rn中的m个样本点 X ( i ) , i = 1 , 2 … … m X^{(i)},i=1,2……m X(i),i=1,2……m,对于其中的一个样本X,其Mean Shift向量为:
M h ( X ) = 1 k ∑ X ( i ) ∈ S h ( X ( i ) − X ) M_h(X)=\frac{1}{k}\displaystyle\sum_{X^{(i)}∈S_h}(X^{(i)}-X) Mh(X)=k1X(i)∈Sh∑(X(i)