翻译学习聚类网址:http://scikit-learn.org/stable/modules/clustering.html
聚类
无标签数据的聚类可以sklearn.cluster模块中使用。
每一个聚类算法都有两个变量:一个类,其中有一个 fit
成员方法通过训练数据 来学习聚类;一个函数,输入训练数据,返回一个整数数组,每个整数代表一个特定 的聚类。对于类来说,训练数据的标签可以在类的 label_
属性中找到。
输入数据
一个值得注意的事情是:实现这个模组的算法的输入有不同种类的矩阵。所有的方法都接受格式如[n_samples, n_features]的标准数据矩阵。
这些方法可以可以从sklearn.feature_extraction
模块中的类获得。AffinityPropagation
,SpectralClustering
和DBSCAN
模块同样可以输入形如[n_samples, n_samples]的类似的矩阵,这些模块可以从sklearn.metrics.pairwise
模块中的函数中获得。
纵观整个聚类方法
scikit-learn中不同聚类方法的比较图
方法名 | 参数 | 可扩展性 | 使用情况 | 几何距离 |
---|---|---|---|---|
K-Means | 聚类的数目 | 非常大的n_samples |