k-means
算法步骤:
1. 从n个数据中随机选择 k 个对象作为初始聚类中心;
2. 根据每个聚类对象的均值(中心对象),计算每个数据点与这些中心对象的距离;并根据最小距离准则,重新对数据进行划分;
3. 重新计算每个有变化的聚类簇的均值,选择与均值距离最小的数据作为中心对象;
4. 循环步骤2和3,直到每个聚类簇不再发生变化为止。
k-means方法的基本要素:
- k值的选择:也就是类别的确定,与K近邻中k值的确定方法类似。
- 距离度量:可以采用欧氏距离、曼哈顿距离等。
K-means的聚类结果
K-means算法的基本设置
- k=2
- 距离度量:欧氏距离
- 最大聚类次数:200
- 类别决策规则:根据每个聚类簇中的多数决定类别
- 测试集:https://github.com/shuaijiang/FemaleMaleDatabase/blob/master/test0.txt
混淆矩阵 Test:male Test:female Result:male 20 1 Result:female 0 14
(表注:该表与上表内容一致)
由于选择初始中心点是随机的,所以每次的聚类结果都不相同,最好的情况下能够完全聚类正确,最差的情况下两个聚类簇没有分开,根据多数投票决定类别时,被标记为同一个类别。