#K-Means聚类
- 对样本的分类称为Q型聚类
- 对变量的分类称为R型聚类
##聚类算法的类型
1.基于划分的方法
基本思路:假设我们有一堆样本要聚类,想要的聚类效果是类内的样本足够近,类间的样本足够远。
2.基于层次的方法
分为凝聚法(自下而上)和分裂法(自上而下)两种。
3.基于密度的方法
避免了划分和层次只能发现凸聚类,基于密度的聚类方法可以发现任意形状的聚类簇,过滤低密区域,从而发现稠密样本点,对于带噪声的数据起着重要的作用。
4.基于网格的方法
网格作为数据结构,将空间中每个样本对应到网格中,提高了对样本的处理速度,关键在于设置网格大小。
5.基于类型的聚类方法
该类方法假设目标的样本集由概率分布决定,那么每一个样本都对应一个数学模型,聚类的过程是将样本集与某个模型拟合的过程。
##样本相似度的度量
距离衡量
- 欧式距离
- 曼哈顿距离
- 切比雪夫距离
- 夹角余弦距离
关联衡量
- 匹配系数 匹配系数越大两个样本越相似
- 相似比
##K-Means聚类算法过程
- 从样本中随机选择k个样本作为初始的聚类中心。
- 计算每个样本到初始聚类中心的距离(一般用欧式距离),将样本分配到距离最近的类中。
- 将所有样本都分配完成,重新计算k个聚类的中心,新的聚类中心即是该簇所有的平均值。
- 重复2、3.
- 聚类中心不再改变或者满足一定条件,结束该算法。
##算法的优缺点
- 优点
调节的参数只有k
对于大数据,算法相对可伸缩和高效,复杂度较低 - 缺点
结果很大程度上依赖初始随机的聚类中心,可能导致聚类的结果是局部最优
k值需要执行多次才能调整到合适的值
噪声点和异常值非常敏感
只适用于数值型样本数据
遇到的问题:
关于凸聚类概念比较模糊,接下去还需要去进一步深入理解其中的理论知识。