今天在用自己之前写的k-means算法对iris数据集聚类时,发现聚类结果经常只有两个类,比实际少一个,这是得聚类的精度大打折扣。
于是乎想了个办法,在聚类的过程中,如果发现在某一次迭代后某一个簇的实例数为零,此时无法计算簇心。为了保持簇的数量不减少,可以利用其他簇心构造一个簇心,最简单的方法就是将其他簇心的平均值作为新的簇心。
代码示例如下:
% 更新聚类中心
z = 0;
for i = 1:N
cln = data(cl==i,:);
ct(i,:) = sum(cln)/max(eps,size(cln,1));
if size(cln,1) == 0
z = i;
end
end
% 构造缺失簇心
if z ~= 0
ct(z,:) = sum(ct)/(size(ct,1)-1);
end
经实验验证,在不处理簇缺失的情况下,如果发生簇缺失,聚类准确率大概只有0.67;而通过构造缺失簇心可以使准确类保持0.9左右。