聚类介绍:
聚类属于典型的无监督学习(unsupervised learning),针对label未知的数据集进行划分,获得目标数量的“簇”(划分的不相交的子集)
主要概念:
划分的不相交的簇: , 表示所划分的簇
聚类主要性能度量:
包括外部指标与内部指标,外部指标是与参考模型label进行比较,内部指标则不参考任何模型,外部指标利用确定划分正确、划分错误等数量来进行评估(不过我认为这个用处不大,如果已经有参考模型,何必用聚类方法呢?)
内部指标包括计算
1 簇内样本间的平均距离 ave(C)
2 簇内样本间的最远距离 diam(C)
3 簇C_j 和 C_i最近样本间的距离 d_min(C_i,C_j)
4 簇C_j 和 C_i两簇中心点距离 d_cen(C_i,C_j)
计算DB指数:
DBI值越小划分效果越好.
聚类中用到的距离计算主要是L1-norm或者是L2-norm
K-means 聚类
目标: 最小化均方误差 : ,是簇C_i的均值向量。
k均值算法采用迭代优化近似求解
1 选择初始均值向量
2 计算样本与各均值向量距离,将样本划分到距离最近的簇,并计算新的一组均值向量
4 给定阈值,判断新均值向量与旧均值向量,如果距离足够近,停止迭代。