分类:
– 有类别标记信息, 因此是一种监督学习
– 根据训练样本获得分类器,然后把每个数据归结到某个已知的类,进而也可以预测未来数据的归类。
聚类:
– 无类别标记, 因此是一种无监督学习
– 无类别标记样本,根据信息相似度原则进行聚类,通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的关系
聚类方法:
划分方法 - (分割类型)
K-均值K-Means
顺序领导者方法
基于模型的方法
基于密度的方法
层次方法(Hierarchical Methods)
K-means思想:
确定K的值;
随机选择K个样本点,每个样本点初始地代表一个类的平均值或簇中心;
对剩余每个数据样本点,根据其到类中心的距离,被划分到最近的类;
重新计算每个簇的平均值来更新每个簇中心;
重复这个过程,直到所有样本都不能再分配为止;
返回K中心。
K-means优点:
1、简单,适用于常规不相交的簇。
2、假设数据是呈球形分布,实际任务中很少有这种情况
3、收敛相对较快。
4、相对有效和可扩展 O(t·k·n)
t:迭代; k:中心数; n:数据点数
K-means 缺陷
1、需要提前指定 K 的值。
很难确定,关于数据集的先验知识(如数据集可以分成多少个部分)可能会有所帮助。
2、可能会收敛到局部最优点。
在实践中,尝试不同的初始中心点, 从中挑选最好的结果。
3、可能对噪声数据和异常值敏感。
因为簇的中心是取平均,因此聚类簇很远的地方的噪声会导致簇的中心点偏移(这表明均值并不是一种稳健的统计量)
在k-means聚类前, 通过预处理移除噪声点往往非常有用
聚类后, 对聚类结果进行一些后处理效果也很好, <