机器学习(三)——Kmeans

KMeans 非skleran 的实现代码

 

 

# -*- coding: utf-8 -*-
"""
Created on Thu May 10 10:12:53 2018
@author: lizihua
"""
from numpy import *
import matplotlib.pyplot as plt


# 加载数据
def loadDataSet(fileName):
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float, curLine))
        dataMat.append(fltLine)
    return dataMat


# 计算欧式距离
def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2)))


# 随机选取k个簇的质心
def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k, n)))
    for j in range(n):
        minJ = min(dataSet[:, j])
        rangeJ = float(max(dataSet[:, j]) - minJ)
        # random.rand(k,1)随机产生k行1列的array,数组的值的范围:[0,1)
        # min+(max-min)*(0,1)之间的数,保证了质心在数据集边界之内
        centroids[:, j] = minJ + rangeJ * random.rand(k, 1)
    return centroids


# K-means聚类算法
def kMeans(dataSet, k, distM=distEclud, createCent=randCent):
    m = shape(dataSet)[0]
    # 创建矩阵来存储每个点的簇的分配结果,第一列记录簇索引值,第二列存储误差(点到簇质心的距离)
    # 且默认所有点的簇都为0
    clusterAssment = mat(zeros((m, 2)))
    # 随机选取k个簇质心
    centroids = createCent(dataSet, k)
    # 标志变量clusterChanged,用以标志簇分配结果是否发生变化
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        # 对于每一个点,计算每个点与k个簇质心的距离,并每个点距离k个簇质心中的最小距离的那个簇
        for i in range(m):
            minDist = inf
            minIndex = -1
            for j in range(k):
                distJI = distM(centroids[j, :], dataSet[i, :])
                if distJI < minDist:
                    minDist = distJI
                    minIndex = j
            # 如果簇索引发生变化,则,标志变量clusterChanged为True
            if clusterAssment[i, 0] != minIndex:
                clusterChanged = True
            # 反之,则将离该点最近的簇索引和距离的平方存储到clusterAssment
            clusterAssment[i, :] = minIndex, minDist ** 2
        print("centroids:\n", centroids)
        # 遍历所有簇质心
        for cent in range(k):
            # 通过数组过滤来获得给定簇的所有点
            pstInClust = dataSet[nonzero(clusterAssment[:, 0].A == cent)[0]]
            # 计算所有点的均值
            centroids[cent, :] = mean(pstInClust, axis=0)
    # 返回类质心和分配结果
    return centroids, clusterAssment


def kMeansPlot(dataMat, centroids, clusterAssment):
    k = len(centroids)
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ax.scatter(centroids[:, 0].tolist(), centroids[:, 1].tolist(), marker='+', c='r')
    markers = ['o', 's', 'v', '*']
    colors = ['blue', 'green', 'yellow', 'red']
    for i in range(k):
        data_class = dataMat[nonzero(clusterAssment[:, 0].A == i)[0]]
        ax.scatter(data_class[:, 0].tolist(), data_class[:, 1].tolist(), marker=markers[i], c=colors[i])
    plt.show()


# 测试
if __name__ == "__main__":
    dataMat = mat(loadDataSet('testset.txt'))
#    print("簇质心:\n", randCent(dataMat, 2))
 #   print("距离:\n", distEclud(dataMat[0], dataMat[1]))  # 距离: 5.18463281668
    myCentroids, clustAssing = kMeans(dataMat, 4)
 #   print("类质心:\n", myCentroids)
  #  print("点分配结果:\n", clustAssing)
    kMeansPlot(dataMat, myCentroids, clustAssing)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Kmeans聚类算法是一种无监督学习算法,用于将数据集划分为不同的簇。它是一个迭代算法,通过计算每个数据点与簇中心的距离,将数据点分配到最近的簇中心。然后,根据分配的数据点更新簇中心。重复这个过程,直到簇中心不再变化或达到预设的迭代次数。 下面是一个使用Python实现Kmeans聚类算法的示例: ``` python import numpy as np import matplotlib.pyplot as plt # 生成随机数据 np.random.seed(0) X = np.random.randn(100, 2) # 初始化K个簇中心 K = 3 centers = X[np.random.choice(len(X), K, replace=False)] # 迭代聚类 for i in range(10): # 计算每个数据点最近的簇中心 distances = np.linalg.norm(X[:, np.newaxis, :] - centers, axis=2) labels = np.argmin(distances, axis=1) # 更新簇中心 for k in range(K): centers[k] = np.mean(X[labels == k], axis=0) # 可视化聚类结果 colors = ['r', 'g', 'b'] for k in range(K): plt.scatter(X[labels == k, 0], X[labels == k, 1], c=colors[k]) plt.scatter(centers[:, 0], centers[:, 1], marker='*', s=200, c='#050505') plt.show() ``` 在这个例子中,我们生成了一个随机数据集,然后初始化了3个簇中心。然后,我们执行10次迭代,计算每个数据点最近的簇中心,并根据分配的数据点更新簇中心。最后,我们可视化聚类结果,其中每个簇用不同的颜色表示,簇中心用星号表示。 Kmeans聚类算法是一种简单有效的聚类算法,但它有一些缺点。例如,它需要预先指定簇的数量K,这可能不是很容易确定。此外,它对初始簇中心的选择很敏感,可能会导致陷入局部最优解。因此,在实际应用中,需要对它进行改进,例如Kmeans++算法和层次聚类算法等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值