《机器学习实战》之K-均值聚类算法的python实现
最近的项目是关于“基于数据挖掘的电路故障分析”,项目基本上都是师兄们在做,我只是在研究关于项目中用到的如下几种算法:二分均值聚类、最近邻分类、基于规则的分类器以及支持向量机。基于项目的保密性(其实也没有什么保密的,但是怕以后老板看到我写的这篇博文,所以,你懂的),这里就不介绍“基于数据挖掘的电路故障分析”的思路了。
废话不多说了,开始正题哈。
基本K-均值聚类算法
基本K均值算法的基本思路为:首先选择K个初始质心(集合中所有点度量值的均值), K值为期望得到簇的个数,大小由用户指定;将每个点指派到最近的质心,点与点之间的距离通过两点对应的度量值差的绝对值进行度量,然后根据指派到簇的点,更新每个簇的质心,重复指派和更新,直到簇不再发生变化,或者满足终止条件。
其伪代码如下:
创建k个点作为初始的质心点(随机选择)
当任意一个点的簇分配结果发生改变时
对数据集中的每一个数据点
对每一个质心
计算质心与数据点的距离
将数据点分配到距离最近的簇
对每一个簇,计算簇中所有点的均值,并将均值作为质心
python实现代码如下:注释基本上写的相当相当详细,由于自己还是python的初学者,觉得注释过多不方便看,还请大家谅解,有错误希望大家指正。
用到的库有numpy和matplotlib,直接通过如下命令安装即可。
pip install numpy
pip install matplotlib
KMeans.py文件
from numpy import *
import time
import matplotlib.pyplot as plt
# calculate Euclidean distance
def euclDistance(vector1, vector2):
return sqrt(sum(power(vector2 - vector1, 2))) #求这两个矩阵的距离,vector1、2均为矩阵
# init centroids with random samples
#在样本集中随机选取k个样本点作为初始质心
def initCentroids(dataSet, k):
numSamples, dim = dataSet.shape #矩阵的行数、列数
centroids = zeros((k, dim)) #感觉要不要你都可以