一、聚类
1.函数
from sklearn.cluster import KMeans,DBSCAN
from scipy.cluster.hierarchy import dendrogram,ward
1.1 K-Means k均值算法
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans,DBSCAN
from scipy.cluster.hierarchy import dendrogram,ward
import matplotlib.pyplot as plt
x,y=make_blobs(n_samples=100,centers=1,random_state=1)
# print(x,y)
kmeans=KMeans(n_clusters=3)
kmeans.fit(x)
plt.scatter(x[:,0],x[:,1],c=kmeans.labels_)
plt.show()
print('{}'.format(kmeans.labels_))
优缺点
优点:原理比较简单,实现也是很容易,收敛速度快;聚类效果较优;算法的可解释度比较强;主要需要调参的参数仅仅是簇数k。
缺点:
1、聚类中心的个数K 需要事先给定,这个 K 值的选定是非常难以估计的。很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;一般通过交叉验证确定;
2、不同的初始聚类中心可能导致完全不同的聚类结果。算法速度依赖于初始化的好坏,初始质点距离不能太近;
3、如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳;
4、该方法不适于发现非凸面形状的簇或大小差别很大的簇,对于不是凸的数据集比较难收敛;
5、对噪音和异常点比较的敏感。
6、需样本存在均值(限定数据种类)。
7、采用迭代方法,得到的结果只是局部最优。
1.2 凝聚算法
from scipy.cluster.hierarchy import dendrogram,ward
#使用连线进行可视化
linkage=ward(x)
dendrogram(linkage)
plt.show()
1.3 DBSCAN算法
基本思想:它任意选择一个没有类别的核心对象作为种子,然后找到所有这个核心对象能够密度可达的样本集合,即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合,这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。
步骤:1、找到任意一个核心点,对该核心点进行扩充;2、扩充方法是寻找从该核心点出发的所有密度相连的数据点;3、遍历该核心的邻域内所有核心点,寻找与这些数据点密度相连的点。
优点:不需要确定要划分的聚类个数,聚类结果没有偏倚;抗噪声,在聚类的同时发现异常点,对数据集中的异常点不敏感;处理任意形状和大小的簇,相对的,K-Means之类的聚类算法一般只适用于凸数据集。
缺点:数据量大时内存消耗大,相比K-Means参数多一些;样本集的密度不均匀、聚类间距差相差很大时,聚类质量较差,这时用DBSCAN聚类一般不适合;
那么我们什么时候需要用DBSCAN来聚类呢?一般来说,如果数据集是稠密的,并且数据集不是凸的,那么用DBSCAN会比K-Means聚类效果好很多。如果数据集不是稠密的,则不推荐用DBSCAN来聚类。
from sklearn.cluster import DBSCAN
kmeans=DBSCAN(eps=0.5,min_samples=10)
cl=kmeans.fit_predict(x)
plt.scatter(x[:,0],x[:,1],c=cl)
plt.show()
print('{}'.format(kmeans.labels_))