1.定义计算距离的函数
def distEclud(vecA,vecB):
# vecA,vecB是数组形式,列表形式不行
return sum((vecA-vecB)**2)**0.5
vecA,vecB是1行n列的形式,也就是一个样本。
欧式距离的计算过程:
两数组各个元素相减,然后各个元素平方,再求和,最后取平方根
验证:
a = np.array([1,1,1])
b = np.array([1,1,1])
distEclud(a,b)
0.0
2.初始质心
采用随机质心的方式,并认为输入聚类的个数k
2.1 质心的选取,采用随机数的方式
某一个特征的质心= 该特征所有数据的最小值 + (该特征所有数据的最大值 - 该特征所有数据的最小值)*介于0与1之间的数
这样计算的随机质心介于该特征所有数据的最小值与最大值之间
产生0与1之间的随机数,用random.random()函数
2.2 质心的保存形式
假设数据集m*n,m是样本个数,n是特征个数
质心用一矩阵表示,k*n的形式,k是聚类的个数,n是数据集的特征个数,也就是列的个数。
利用random()产生随机数
产生0-1之间正态分布的随机数