机器学习与数据挖掘算法--kMeans算法

最新推荐文章于 2023-12-12 20:27:06 发布

leiline

最新推荐文章于 2023-12-12 20:27:06 发布

阅读量853

点赞数

分类专栏：数据挖掘文章标签：数据挖掘算法

本文链接：https://blog.csdn.net/leiline/article/details/54574689

版权

k-平均算法是一种常见的聚类分析方法，用于将相似对象归类到同一簇中。该算法涉及从数据集中随机选择k个初始质心，然后通过迭代过程重新计算质心并将数据点分配到最近的簇，直到质心不再变化或达到预设阈值。本文介绍了kMeans算法的过程、SSE（误差平方和）作为评价标准，以及二分k-均值算法以避免局部最小值问题。最后，演示了如何使用scikit-learn库实现kMeans算法。

摘要由CSDN通过智能技术生成

k-平均算法源于信号处理中的一种向量量化方法，现在更多作为一种聚类分析方法流行于数据挖掘领域。

聚类是一种无监督学习，它将相似的对象归到同一个簇中。簇内的对象越相似，聚类的效果越好。聚类与分类最大的不同在于，分类的目标事先已知，聚类则不一样。

k-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的，每个簇通过其质心，即簇中所有点的中心来描述。

目的

把n个点划分到k个聚类中，使得每个点都属于离他最近的均值（即聚类中心）对应的聚类，以此作为聚类的标准。

算法过程

从N个数据文档随机选取k个数据文档作为质心；
对剩余的每个数据文档测量其到每个质心的距离，并把它归到最近的质心的类；
重新计算已经得到的每个类的质心；
迭代2-3步直至新的质心与原质心相等或小于指定阀值。

程序过程

数据预处理，导入数据做成矩阵。distEclud方法计算两个向量之间的距离。

from numpy import *

def loadDataSet(fileName):
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float, curLine)
        dataMat.append(fltLine)
    return dataMat

def distEclud(vecA, vecB):