一、KMeans
- 在数据集N中随机初始化k个质心。
- 遍历数据集中的每个点,判断点到指定质心的距离,并把点归到距离最小的质心类别里。
- 对(2)中处理后的所有类别点进行质心的计算,更新k个质心。
- 重复(2)(3)操作,直到质心稳定或者到达指定迭代次数停止。
二、DBSCAN
DBSCAN是基于自适应聚类的方法,主要参数有 ε(半径参数),密度阈值Minpts。
- 给定数据集N,此时所有的点被标记为unvisited,初始的时候从unvisited中的点内随机选择一个点p,计算以p为圆心, ε为半径的圆包含的所有点的数目n,如果n大于Minpts,则把p以及p圆内的所有点都标记为类别C,并标记为visited,否则重新选取点p。
- (1)中对p圆内中的所有点都已经标记好了,接着对圆内每个点再次进行密度距离计算,判断以该点为中心,在ε半径内的所有点数量是否大于Minpts,如果大于,则把这些点标记为类别C和visited,否则不予处理,按照这种方法蔓延展开。
- 对未标记visited点执行(1)(2)步,直到每个点的属性不再发生改变,计算每类点的中心坐标。