一、算法原理
1、k-means的参数
sklearn.cluster.KMeans(n_clusters=8,init="k-means++", n_init=10, max_iter=300, tol=0.0001, precompute_distances="auto", verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm="auto")
2、参数的意义:
n_clusters:簇的个数,即你想聚成几类;
init: 初始簇中心的获取方法;
n_init: 获取初始簇中心的更迭次数,为了弥补初始质心的影响,算法默认会初始10次质心,实现算法,然后返回最好的结果;
max_iter: 最大迭代次数(因为kmeans算法的实现需要迭代);
tol: 容忍度,即kmeans运行准则收敛的条件;
precompute_distances:是否需要提前计算距离,这个参数会在空间和时间之间做权衡,如果是True 会把整个距离矩阵都放到内存中,auto 会默认在数据样本大于featurs*samples 的数量大于12e6 的时候False,False 时核心实现的方法是利用Cpython 来实现的;
verbose: 冗长模式(不太懂是啥意思,反正一般不去改默认值);
random_state: 随机生成簇中心的状态条件;
copy_x: 对是否修改数据的一个标记,如果True,即复制了就不会修改数据。bool 在scikit-learn 很多接口中都会有这个参数的,就是是否对输入数据继续copy 操作,以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚;
n_jobs: 并行设置;
algorithm: kmeans的实现算法,有:’auto’, ‘full’, ‘elkan’, 其中 ‘full’表示用EM方式实现;
3、工作原理
K-means聚类算法的工作流程:首先随机选择初心质心,其中K是用户指定的参数(需要分成几类),然后将数据集中的每个点指派到最近的质心,而指派到一个质心的点就为一个簇。然后再根据指派到簇的点,将每个簇的质心更新为该簇所有点的平均值,重复指派和更新步骤,直到簇不发生变化,或者等价的,直到质心不发生变化。
二、案例1解释
import
![d3185d46eb3b0c4ea31e2ec2818d4fb5.png](https://img-blog.csdnimg.cn/img_convert/d3185d46eb3b0c4ea31e2ec2818d4fb5.png)
三、案例2解释
iris = pd.read_csv('iris.txt',header = None)
# 数据集进入模型的时候,需要转换成 矩阵
iris_copy = iris.iloc[:,:4].as_matrix()
# 开始聚类,选择聚成3个簇;
clf = KMeans(n_clusters=3) # 这步表示创建分类器
y_pred = clf.fit_predict(iris_copy) # 这步表示用创建的分类器去预测结果,返回的也是结果的标签值。
# 将预测的标签值合并在数据集上;并重置列名
iris_pre = pd.concat([iris,pd.DataFrame(y_pred)],axis = 1)
iris_pre.columns = ["A","B","C","D","E","F"]
iris_pre.groupby(by = "E").count()
![a3d6ac2dc678c3d01ea595a3c5e9c0dc.png](https://img-blog.csdnimg.cn/img_convert/a3d6ac2dc678c3d01ea595a3c5e9c0dc.png)
四、模型评价
# 获取模型的 误差平方和 SSE,误差平方和越小越好;
clf.inertia_
#用来存放设置不同簇数时的SSE值
distortions = []
for i in range(1,11):
km = KMeans(n_clusters=i,init="k-means++",n_init=10,max_iter=300,tol=1e-4,random_state=0)
km.fit(iris_copy)
#获取K-means算法的SSE
distortions.append(km.inertia_)
#绘制曲线
plt.plot(range(1,11),distortions,marker="o")
plt.xlabel("簇数量")
plt.ylabel("簇内误方差(SSE)")
plt.show()
![594b9712156af122afc2172063cf7631.png](https://img-blog.csdnimg.cn/img_convert/594b9712156af122afc2172063cf7631.png)