k均值聚类算法优缺点_K均值聚类算法原理及案例解释

最新推荐文章于 2023-05-10 13:30:49 发布

weixin_39828956

最新推荐文章于 2023-05-10 13:30:49 发布

阅读量860

点赞数

文章标签： k均值聚类算法优缺点

一、算法原理

1、k-means的参数

sklearn.cluster.KMeans(n_clusters=8,init="k-means++", n_init=10, max_iter=300, tol=0.0001, precompute_distances="auto", verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm="auto")

2、参数的意义：

n_clusters:簇的个数，即你想聚成几类;

init: 初始簇中心的获取方法;

n_init: 获取初始簇中心的更迭次数，为了弥补初始质心的影响，算法默认会初始10次质心，实现算法，然后返回最好的结果;

max_iter: 最大迭代次数（因为kmeans算法的实现需要迭代）;

tol: 容忍度，即kmeans运行准则收敛的条件;

precompute_distances：是否需要提前计算距离，这个参数会在空间和时间之间做权衡，如果是True 会把整个距离矩阵都放到内存中，auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候False,False 时核心实现的方法是利用Cpython 来实现的;

verbose: 冗长模式（不太懂是啥意思，反正一般不去改默认值）;

random_state: 随机生成簇中心的状态条件;

copy_x: 对是否修改数据的一个标记，如果True，即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的，就是是否对输入数据继续copy 操作，以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚;

n_jobs: 并行设置;

algorithm: kmeans的实现算法，有：’auto’, ‘full’, ‘elkan’, 其中 ‘full’表示用EM方式实现;

3、工作原理

K-means聚类算法的工作流程：首先随机选择初心质心，其中K是用户指定的参数（需要分成几类），然后将数据集中的每个点指派到最近的质心，而指派到一个质心的点就为一个簇。然后再根据指派到簇的点，将每个簇的质心更新为该簇所有点的平均值，重复指派和更新步骤，直到簇不发生变化，或者等价的，直到质心不发生变化。

二、案例1解释

import

三、案例2解释

iris = pd.read_csv('iris.txt',header = None)

# 数据集进入模型的时候，需要转换成 矩阵
iris_copy = iris.iloc[:,:4].as_matrix()

# 开始聚类，选择聚成3个簇；
clf = KMeans(n_clusters=3)  # 这步表示创建分类器
y_pred = clf.fit_predict(iris_copy)  # 这步表示用创建的分类器去预测结果，返回的也是结果的标签值。

# 将预测的标签值合并在数据集上；并重置列名
iris_pre = pd.concat([iris,pd.DataFrame(y_pred)],axis = 1)
iris_pre.columns = ["A","B","C","D","E","F"]

iris_pre.groupby(by = "E").count()

四、模型评价

# 获取模型的 误差平方和 SSE,误差平方和越小越好；
clf.inertia_

#用来存放设置不同簇数时的SSE值
distortions = []
for i in range(1,11):
    km = KMeans(n_clusters=i,init="k-means++",n_init=10,max_iter=300,tol=1e-4,random_state=0)
    km.fit(iris_copy)
    #获取K-means算法的SSE
    distortions.append(km.inertia_)
#绘制曲线
plt.plot(range(1,11),distortions,marker="o")
plt.xlabel("簇数量")
plt.ylabel("簇内误方差(SSE)")
plt.show()

weixin_39828956

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
k均值聚类算法优缺点_K均值聚类算法原理及案例解释

一、算法原理1、k-means的参数sklearn.cluster.KMeans(n_clusters=8,init="k-means++", n_init=10, max_iter=300, tol=0.0001, precompute_distances="auto", verbose=0, random_state=None, copy_x=True, n_jobs=1, algo...
复制链接

扫一扫