k均值聚类算法优缺点_K均值聚类算法原理及案例解释

、算法原理

1、k-means的参数

sklearn.cluster.KMeans(n_clusters=8,init="k-means++", n_init=10, max_iter=300, tol=0.0001, precompute_distances="auto", verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm="auto")

2、参数的意义:

n_clusters:簇的个数,即你想聚成几类;

init: 初始簇中心的获取方法;

n_init: 获取初始簇中心的更迭次数,为了弥补初始质心的影响,算法默认会初始10次质心,实现算法,然后返回最好的结果;

max_iter: 最大迭代次数(因为kmeans算法的实现需要迭代);

tol: 容忍度,即kmeans运行准则收敛的条件;

precompute_distances:是否需要提前计算距离,这个参数会在空间和时间之间做权衡,如果是True 会把整个距离矩阵都放到内存中,auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候False,False 时核心实现的方法是利用Cpython 来实现的;

verbose: 冗长模式(不太懂是啥意思,反正一般不去改默认值);

random_state: 随机生成簇中心的状态条件;

copy_x: 对是否修改数据的一个标记,如果True,即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的,就是是否对输入数据继续copy 操作,以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚;

n_jobs: 并行设置;

algorithm: kmeans的实现算法,有:’auto’, ‘full’, ‘elkan’, 其中 ‘full’表示用EM方式实现;

3、工作原理

K-means聚类算法的工作流程:首先随机选择初心质心,其中K是用户指定的参数(需要分成几类),然后将数据集中的每个点指派到最近的质心,而指派到一个质心的点就为一个簇。然后再根据指派到簇的点,将每个簇的质心更新为该簇所有点的平均值,重复指派和更新步骤,直到簇不发生变化,或者等价的,直到质心不发生变化。

二、案例1解释

import 

d3185d46eb3b0c4ea31e2ec2818d4fb5.png

三、案例2解释

iris = pd.read_csv('iris.txt',header = None)

# 数据集进入模型的时候,需要转换成 矩阵
iris_copy = iris.iloc[:,:4].as_matrix()

# 开始聚类,选择聚成3个簇;
clf = KMeans(n_clusters=3)  # 这步表示创建分类器
y_pred = clf.fit_predict(iris_copy)  # 这步表示用创建的分类器去预测结果,返回的也是结果的标签值。

# 将预测的标签值合并在数据集上;并重置列名
iris_pre = pd.concat([iris,pd.DataFrame(y_pred)],axis = 1)
iris_pre.columns = ["A","B","C","D","E","F"]

iris_pre.groupby(by = "E").count()

a3d6ac2dc678c3d01ea595a3c5e9c0dc.png

四、模型评价

# 获取模型的 误差平方和 SSE,误差平方和越小越好;
clf.inertia_

#用来存放设置不同簇数时的SSE值
distortions = []
for i in range(1,11):
    km = KMeans(n_clusters=i,init="k-means++",n_init=10,max_iter=300,tol=1e-4,random_state=0)
    km.fit(iris_copy)
    #获取K-means算法的SSE
    distortions.append(km.inertia_)
#绘制曲线
plt.plot(range(1,11),distortions,marker="o")
plt.xlabel("簇数量")
plt.ylabel("簇内误方差(SSE)")
plt.show()

594b9712156af122afc2172063cf7631.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值