核心思想:
#1.随机生成指定个数质心点,聚类的数量
#2.质心点不变,更新类别,计算每个点与质心点的距离,计算出每个点距离哪个质心点最近,类别设置为哪个质心点类别
#3.类别不变,更新质心点,所有点按质心点类别分组,没类别求出所有点的特征值的均值,质心点更新
#4.新质心点执行第2步,循环调优,直到SSE不在变小
#5.搭建好模型后,质心点个数从1到20根据模型求出每种SSE的值,画图得到最优质心点数量
#机器学习聚类算法实现:
from sklearn.datasets import make_blobs
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
#创建数据集
x,y = make_blobs(n_samples=800,n_features=2,centers=5,random_state=1)
data = pd.DataFrame(x)
data['label'] = y
plt.scatter(x[:,0],x[:,1])
#看选什么n是最好,你从1到10,看的出的SSE走势
SSE_total_list = []
for i in range(1,11):
clusters = KMeans(n_clusters= i)
clusters.fit(x)
SSE_total_list.append(clusters.inertia_)
plt.figure(figsize=(