一、概述
将相似的样本自动归到一个类别中,不同的相似度计算方法,会得到不同的聚类结果,常用欧式距离法;聚类算法的目的是在没有先验知识的情况下,自动发现数据集中的内在结构和模式。是无监督学习算法
二、分类
根据聚类颗粒度:细聚类、粗聚类
根据实现方法
K-means:按照 质心 分类,主要介绍K-means,通用、普遍;
层次聚类:对数据进行逐层划分,直到达到聚类的类别个数;
DBSCAN聚类:一种基于 密度 的聚类算法;
谱聚类:是一种基于 图论 的聚类算法
三、KMeans方法
实现流程
1 、事先确定常数K ,常数K意味着最终的聚类类别数
2、随机选择 K 个样本点作为初始聚类中心
3、计算每个样本到 K 个中心的距离,选择最近的聚类中心点作为标记类别
4、根据每个类别中的样本点,重新计算出新的聚类中心点(平均值),如果计算得出的新中心点与原中心点一样则停止聚类,否则重新进行第 2 步过程,直到聚类中心不再变化
# 导包
from sklearn.cluster import KMeans
sklearn.cluster.KMeans ( n_clusters = 8 )
# 方法
estimator.fit_predict(x)
导包:from sklearn.cluster import KMeans
sklearn.cluster.KMeans ( n_clusters = 8 )
参数:n_clusters:开始的聚类中心数量(整型,缺省值=8,生成的聚类数,即产生的质心(centroids)数
方法:estimator.fit_predict(x)
评估:silhouette_score(x, y_pred) # 评估 聚类效果,数值越大越好
案例
1 导包
# 1.导入工具包
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.metrics import silhouette_score # 计算SC系数
2 创建数据集
# 2.创建数据集 1000个样本,每个样本2个特征 4个质心蔟数据标准差[0.4, 0.2, 0.2, 0.2]
x, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1], [0,0], [1,1], [2,2]],cluster_std = [0.4, 0.2, 0.2, 0.2], random_state=22)
plt.figure()
plt.scatt