1、聚类分析
是按照个体的特征将他们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大的差异性;
2、基本理论
Kmeans:K表示算法当中类的个数
Means 均值算法:K-means 使用均值算法把数据分成k个类别的算法
Kmeans算法:kmeans算法的目标,是把n个样本点划分到k个类中,使得每个点都属于离他最近的质心对应的类,以此作为聚类的标准
质心:是指一个类,内部所有样本点的均值
3、步骤
# 第一步
取得K个初始质心:从数据中随机抽取k个点作为初始聚类的中心,由这个中心代表各个类
# 第二步
根据欧式距离最小原则,把每个点划分配进距离最近的类中
# 第三步
重新计算质心:根据均值等方法,重新计算每个类的质心
# 第四部
迭代计算质心:重复第二步和第三步,迭代计算质心
# 第五步
聚类完成:聚类中心不再发何时能移动
4、聚类方法
sklearn.cluster.Kmeans(n_cluster=8)
n_clusters 要聚类的个数
fit(date) 训练模型
data 训练数据
predict(data) 预测
data 需要预测的数据
5、案例代码
# 目的:识别站点应用最广泛的模型是通过:流水、费比roi、当周销转、跨期销转 网销 销转
import pan