非监督学习
聚类分析常用于数据探索或挖掘前期
-
没有先验经验做探索性分析
-
样本量较大时做预处理
常用于解决
-
数据集可以分几类;每个类别有多少样本量
-
不同类别中各个变量的强弱关系如何
-
不同类型的典型特征是什么
一般应用场景
-
群类别间的差异性特征分析
-
群类别内的关键特征提取
-
图像压缩、分割、图像理解
-
异常检测
-
数据离散化
聚类分析缺点:
-
无法提供明确的行动指向
-
数据异常对结果有影响
聚类方法的关键:距离。两个样本间的距离越小,说明它们之间越相似,越有可能聚成一个类群。相反,两个样本间的距离比较大,说明它们相差越大,越有可能隶属于不同的类群。
通过聚类算法,即使在没有任何先验知识的情况下,基于样本的数据特征,把相似或相近的样本划分为一群,把差异较大或相远的样本划分到另一群,从而形成不同的“簇”
常用聚类方法:
一、K—means聚类分析:基于点与点之间的距离的相似度来计算最佳类别归属。
Kmeans在进行类别划分过程中及最终结果,始终追求“簇内差异小, 簇间差异大”,
其中差异由样本点到其所在簇的质心的距离衡量。
python语法:
sklearn.cluster.KMeans(n_clusters=8, init='k-means++', n_init=10, max_iter=300, tol=0.0001, precompute_distances='auto', verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm='auto')
参数详解:
n_cluster:k,告诉模型我们要分几类,默认8,必填;
有监督学习