ML刻意练习第六周之K-means

k-means算法是无监督学习方法的经典算法之一,也是最简单的一个。
其中我们需要选择一种距离度量来表示数据点之间的距离,本文中我们使用的是欧式距离。

一、k均值聚类算法

1.支持函数

import numpy as np

def loadDataSet(fileName):
    """
    函数说明:加载数据
    Parameters:
        fileName - 文件名
    Returns:
        dataMat - 数据矩阵
    """
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float, curLine))  # 转化为float类型
        dataMat.append(fltLine)
    return np.array(dataMat)


def distEclud(vecA, vecB):
    """
    函数说明:欧拉距离
    parameters:
         vecA,vecB:两个数据点的特征向量
    returns:
         欧式距离
    """
    return np.sqrt(np.sum(np.power(vecA - vecB, 2)))


def randCent(dataSet, k):
    """
    函数说明:
    :param dataSet: 数据矩阵
    :param k: 最终分类的个数
    :return: centroids:一个包含k个随机质心的集合
    """
    # n为特征值个数
    n = np.shape(dataSet)[1]
    centroids = np.mat(np.zeros((k, n)))
    for j in range(n):
        # minJ为特征值最小值,rangeJ为特征值取值范围
        minJ = min(dataSet[:, j])
        rangeJ = float(max(dataSet[:, j]) - minJ)
        centroids[:, j] = np.mat(minJ + rangeJ * np.random.rand(k, 1))
    return centroids
    

为了测试一下randCent函数,输入以下命令:

arr = np.eye(5)
result = randCent(arr,6)
print(result)

得到以下结果:

[[ 0.05560545  0.81041864  0.79611652  0.9373905   0.08548578]
 [ 0.42075168  0.86751914  0.66679966  0.57616285  0.13381111]
 [ 0.46620813  0.2056531   0.35411902  0.10988056  0.51711511]
 [ 0.48553254  0.38452667  0.3622934   0.85310448  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值