1)函数:sklearn.cluster.
KMeans
2)主要参数
n_clusters:要进行的分类的个数,即上文中k值,默认是8
max_iter :最大迭代次数。默认300
min_iter :最小迭代次数,默认10
init:有三个可选项
'k-means ++':使用k-means++算法,默认选项
'random':从初始质心数据中随机选择k个观察值
第三个是数组形式的参数
n_jobs: 设置并行量 (-1表示使用所有CPU)
3)主要属性:
cluster_centers_ :集群中心的坐标
labels_ : 每个点的标签
4)官网示例:
>>> from sklearn.cluster import KMeans
>>> import numpy as np
>>> X = np.array([[1, 2], [1, 4], [1, 0],
... [4, 2], [4, 4], [4, 0]])
>>> kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
>>> kmeans.labels_
array([0, 0, 0, 1, 1, 1], dtype=int32)
>>> kmeans.predict([[0, 0], [4, 4]])
array([0, 1], dtype=int32)
>>> kmeans.cluster_centers_
array([[ 1., 2.],
[ 4., 2.]])