《机器学习实战》之K-均值聚类算法的python实现

最新推荐文章于 2024-05-02 01:48:41 发布

HelloWorld_EE

最新推荐文章于 2024-05-02 01:48:41 发布

阅读量6.3k

点赞数 5

分类专栏：机器学习 python 文章标签： K-均值聚类算法机器学习实战 python

本文链接：https://blog.csdn.net/u010412719/article/details/47111259

版权

《机器学习实战》之K-均值聚类算法的python实现

最近的项目是关于“基于数据挖掘的电路故障分析”，项目基本上都是师兄们在做，我只是在研究关于项目中用到的如下几种算法：二分均值聚类、最近邻分类、基于规则的分类器以及支持向量机。基于项目的保密性（其实也没有什么保密的，但是怕以后老板看到我写的这篇博文，所以，你懂的），这里就不介绍“基于数据挖掘的电路故障分析”的思路了。

废话不多说了，开始正题哈。

基本K-均值聚类算法

基本K均值算法的基本思路为：首先选择K个初始质心（集合中所有点度量值的均值）， K值为期望得到簇的个数，大小由用户指定；将每个点指派到最近的质心，点与点之间的距离通过两点对应的度量值差的绝对值进行度量，然后根据指派到簇的点，更新每个簇的质心，重复指派和更新，直到簇不再发生变化，或者满足终止条件。

其伪代码如下：

创建k个点作为初始的质心点（随机选择）
当任意一个点的簇分配结果发生改变时
            对数据集中的每一个数据点
                        对每一个质心
                              计算质心与数据点的距离
                        将数据点分配到距离最近的簇
           对每一个簇，计算簇中所有点的均值，并将均值作为质心

python实现代码如下：注释基本上写的相当相当详细，由于自己还是python的初学者，觉得注释过多不方便看，还请大家谅解，有错误希望大家指正。
用到的库有numpy和matplotlib，直接通过如下命令安装即可。

pip install numpy
pip install matplotlib

KMeans.py文件

from numpy import *  
import time  
import matplotlib.pyplot as plt  


# calculate Euclidean distance  
def euclDistance(vector1, vector2):  
    return sqrt(sum(power(vector2 - vector1, 2)))  #求这两个矩阵的距离，vector1、2均为矩阵

# init centroids with random samples  
#在样本集中随机选取k个样本点作为初始质心
def initCentroids(dataSet, k):  
    numSamples, dim = dataSet.shape   #矩阵的行数、列数 
    centroids = zeros((k, dim))         #感觉要不要你都可以

最低0.47元/天解锁文章

HelloWorld_EE

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
《机器学习实战》之K-均值聚类算法的python实现

《机器学习实战》之K-均值聚类算法的python实现最近的项目是关于“基于数据挖掘的电路故障分析”，项目基本上都是师兄们在做，我只是在研究关于项目中用到的如下几种算法：二分均值聚类、最近邻分类、基于规则的分类器以及支持向量机。基于项目的保密性（其实也没有什么保密的，但是怕以后老板看到我写的这篇博文，所以，你懂的），这里就不介绍“基于数据挖掘的电路故障分析”的思路了。废话不多说了，开始正题哈。
复制链接

扫一扫

专栏目录