聚类导论
在scikit-learn 中 未标记的数据的 聚类(Clustering) 可以使用模块sklearn.cluster
来实现。
每个聚类算法(clustering algorithm)都有两个变体: 一个是 类(class), 它实现了 fit 方法来学习训练数据的簇(cluster),还有一个 函数(function),当给定训练数据,返回与不同簇对应的整数标签数组(array)。对于类来说,训练数据上的标签可以在 labels_ 属性中找到。
聚类方法概述
当簇具有特殊的形状,即非平面流体(译注:即该流体的高斯曲率非0),并且标准欧氏距离不是正确的度量标准(metric)时,非平面几何聚类(Non-flat geometry clustering)是非常有用的。这种情况出现在上图的两个顶行中。
用于聚类(clustering)的高斯混合模型(Gaussian mixture models),专用于混合模型描述在 文档的另一章节 。可以将 KMeans 视为具有每个分量的协方差(equal covariance per component)相等的高斯混合模型的特殊情况。
K-means
KMeans 算法通过把样本分离成 n 个具有相同方差的类的方式来聚集数据,最小化称为 惯量(inertia) 或 簇内平方和(within-cluster sum-of-squares)的标准(criterion)。该算法需要指定簇的数量。它可以很好地扩展