一、简介
K-means算法的思想就是对空间K个点为中心进行聚类,对靠近他们的对象进行归类,通过迭代的方法,逐次更新聚类中心(质心)的值,直到得到最好的聚类结果。K-means过程:
1.首先选择k个类别的中心点
2.对任意一个样本,求其到各类中心的距离,将该样本归到距离最短的中心所在的类
3.聚好类后,重新计算每个聚类的中心点位置
4.重复2,3步骤迭代,直到k个类中心点的位置不变,或者达到一定的迭代次数,则迭代结束,否则继续迭代
二、个人知识背景补充
1.数组:
https://baike.baidu.com/item/%E6%95%B0%E7%BB%84/3794097?fr=aladdin
2.nonzero:
https://blog.csdn.net/u013698770/article/details/54632047
np.nonzero函数是numpy中用于得到数组array中非零元素的位置(数组索引)的函数,就是行下标组和列下标组
#代码似乎没对整齐。第一次整这个,以后注意
import numpy as np
#读取数据,变成list,存取数据
def loadDataSet(fileName):
dataMat=[]
fr=open(fileName)
for line in fr.readlines():
curLine=line.strip.split('\t')
fltLine=map(float,curLine) #map内置函数,返回一个list
dataMat.append(fltLiene)
return dataMat
#定义欧式距离
def distEclud