K-means聚类算法注释

本文是对K-means聚类算法的详细注释,旨在帮助读者理解算法的运作过程。通过实例数据运行结果,展示了算法如何对数据进行分组和聚类。
摘要由CSDN通过智能技术生成

我也不会写,就注释一下下,希望各位大佬宽容一下我这个“水货”,谢谢

from numpy import *
# 数据的预处理
def loadDataSet(fileName):
    dataMat = [] # 创建一个列表
    fr = open(fileName) # 打开数据文本文件
    for line in fr.readlines(): # 逐行读取
        # split('\t')指定分给符对数据进行切割; strip(rm) 默认删除空白符:\t \n \r and 空格
        curLine = line.strip().split('\t')
        fltLine = list(map(float, curLine)) # map作用:将函数float作用于curLine,并返回一个数组
        dataMat.append(fltLine) # 将处理的数据依次加入到列表中
    return dataMat

# 计算两个点之间的欧式距离
def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) # (vecA-vecB)的乘方

# 初始化随机中心
# 函数参数:dataset:数据集;k:质心的个数
def randCent(dataSet, k):
    n = shape(dataSet)[1] # 获取数据长度:列
    centroids = mat(zeros((k, n))) # 初始化一个zeros参数是(k*n)元组的零矩阵
    for j in range(n): #j从0到n取值
        minJ = min(dataSet[:, j]) # 取J列中的所有行元素,并得到J列所有行的最小值
        rangeJ = float( max(dataSet[:, j]) - minJ) # float从j列所有行元素中选取最大值-最小值并将类型转换为
        centroids[:, j] = mat(minJ + rangeJ * random.rand(k, 1)) # 构建簇的质心
    return centroids # 返回这个簇矩阵

#K均值聚类算法
# 参数:
# dataSet:数据集
# k:质心数量==簇数量
# distMeas:两个点之间的欧氏距离
# createCent:初始化质点的中心
def kMeans(dataSet, k, distMeas=distEclud, createCent=<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值