项目遇到一个问题,于是翻翻以前的资料
- Hierarchical Clustering
层次聚类,n—1,1—-n,合久必分分久必合,两个方式 - K-means
大名鼎鼎,然而挺弱,看着就能分得,那就用吧,不然很蛇皮 - K-medians
median和mean的区别?均值和中间值,或者说正态分布适合用mean,skewed适合用median - FCM模糊c均值
同k-means不同就在于,判断是模糊的,对模糊数学不很了解,知道了大概意思,涉及到再深研究吧。相比k-means多了一个参数m,这个m就是糊涂程度~~~太小了,那么就跟严格的k均值一样了 - som
毕业中用到过,平时也经常用的一种聚类 - dbscan
与均值漂移聚类类似,DBSCAN也是基于密度的聚类算法。
具体步骤:
首先确定半径r和minPoints. 从一个没有被访问过的任意数据点开始,以这个点为中心,r为半径的圆内包含的点的数量是否大于或等于minPoints,如果大于或等于minPoints则改点被标记为central point,反之则会被标记为noise point。
重复,如果一个noise point存在于某个central point为半径的圆内,则这个点被标记为边缘点,反之仍为noise point。重复步骤1,知道所有的点都被访问过。
优点:不需要知道簇的数量
缺点:需要确定距离r和minPoints
https://blog.csdn.net/Katherine_hsr/article/details/79382249 这里写的好 - 用高斯混合模型(GMM)的最大期望(EM)聚类
K-Means的缺点在于对聚类中心均值的简单使用。下面的图中的两个圆如果使用K-Means则不能作出正确的类的判断。同样的,如果数据集中的点类似下图中曲线的情况也是不能正确分类的。
这里写图片描述
使用高斯混合模型(GMM)做聚类首先假设数据点是呈高斯分布的,相对应K-Means假设数据点是圆形的,高斯分布(椭圆形)给出了更多的可能性。我们有两个参数来描述簇的形状:均值和标准差。所以这些簇可以采取任何形状的椭圆形,因为在x,y方向上都有标准差。因此,每个高斯分布被分配给单个簇。
所以要做聚类首先应该找到数据集的均值和标准差,我们将采用一个叫做最大期望(EM)的优化算法。下图演示了使用GMMs进行最大期望的聚类过程。
聚类的两个坐标report一下是这样的
scatter一下,感觉并不是很适合k-means。。。。这个问题这么处理,似乎有问题啊,慢慢再想想。。