K-Means的numpy实现

最新推荐文章于 2022-12-26 14:00:00 发布

Alphapeople

最新推荐文章于 2022-12-26 14:00:00 发布

阅读量662

点赞数

分类专栏：机器学习文章标签： K-Means

本文链接：https://blog.csdn.net/weixin_38241876/article/details/88862778

版权

机器学习专栏收录该内容

81 篇文章 1 订阅

订阅专栏

K-Means是一种经典的聚类算法,其基本思想是对于一组数据首先随机找k个簇,然后每个数据都与这k个簇分别计算距离,与每个簇距离最近的点就分给这个簇,然后在选取每个簇的中心点作为新的簇,再次迭代直到簇不怎么变化为止,以下是numpy实现的代码:

import numpy as np
import matplotlib.pyplot as plt

def show(x,y,crowded_x,crowded_y):
    lable = []
    for i in range(len(x)):
        d1 = np.sqrt((x[i]-crowded_x[0])**2+(y[i]-crowded_y[0])**2)
        d2 = np.sqrt((x[i]-crowded_x[1])**2+(y[i]-crowded_y[1])**2)
        if d1 < d2:
            lable.append(0)
        else:
            lable.append(1)
    x0 = []
    y0 = []
    x1 = []
    y1 = []
    for i in range(len(x)):
        if lable[i] == 0:
            plt.scatter(x[i],y[i],c='r')
            x0.append(x[i])
            y0.append(y[i])
        else:
            plt.scatter(x[i],y[i],c='b')
            x1.append(x[i])
            y1.append(y[i])
    plt.scatter(crowded_x,crowded_y,c='g')
    plt.pause(1.5)
    plt.clf()
    return np.mean(x0),np.mean(y0),np.mean(x1),np.mean(y1)
if __name__ == '__main__':
    x = np.random.randn(100)
    y = np.random.randn(100)
    crowded_x = np.random.uniform(-3,3,2)
    crowded_y = np.random.uniform(-3,3,2)
    for _ in range(6):
        if _ == 0:
            x0,y0,x1,y1 = show(x,y,crowded_x,crowded_y)
        else:
            x0,y0,x1,y1 = show(x,y,[x0,x1],[y0,y1])

通用版本,效果更好:

import numpy as np
import matplotlib.pyplot as plt

# 加载数据
def loadDataSet(fileName):
    data = np.loadtxt(fileName,delimiter='\t')
    return data

# 欧氏距离计算
def distEclud(x,y):
    return np.sqrt(np.sum((x-y)**2))  # 计算欧氏距离

# 为给定数据集构建一个包含K个随机质心的集合
def randCent(dataSet,k):
    m,n = dataSet.shape
    centroids = np.zeros((k,n))
    for i in range(k):
        index = int(np.random.uniform(0,m)) #
        centroids[i,:] = dataSet[index,:]
    return centroids

# k均值聚类
def KMeans(dataSet,k):

    m = np.shape(dataSet)[0]  #行的数目
    # 第一列存样本属于哪一簇
    # 第二列存样本的到簇的中心点的误差
    clusterAssment = np.zeros((m,2))#保存每个样本到属于哪一个质心以及到所属质心的距离
    clusterChange = True

    # 第1步 初始化centroids(聚类中心)
    centroids = randCent(dataSet,k)
    while clusterChange:
        clusterChange = False
    #先遍历每个样本,然后在每个样本的前提下遍历每个质心
        # 遍历所有的样本（行数）
        for i in range(m):
            minDist = 100000.0
            minIndex = -1

            # 遍历所有的质心
            #第2步 找出最近的质心
            for j in range(k):#j代表第几个质心
                # 计算该样本到质心的欧式距离
                distance = distEclud(centroids[j,:],dataSet[i,:])
                if distance < minDist:
                    # 把最小的距离和最小距离的质心的索引记录下来
                    minDist = distance
                    minIndex = j
            # 第 3 步：更新每一行样本所属的簇
            if clusterAssment[i,0] != minIndex:
                clusterChange = True
                clusterAssment[i,:] = minIndex,minDist**2
        #第 4 步：更新质心
        for j in range(k):
            pointsInCluster = dataSet[np.nonzero(clusterAssment[:,0] == j)[0]]  # 获取簇类所有的点,np.nonzero得到数组array中非零元素的位置
            print(pointsInCluster)
            print('*'*30)
            centroids[j,:] = np.mean(pointsInCluster,axis=0)   # 对矩阵的行求均值
        print('\n','#'*30,'\n')

    print("Congratulations,cluster complete!")
    return centroids,clusterAssment

def showCluster(dataSet,k,centroids,clusterAssment):
    m,n = dataSet.shape
    if n != 2:
        print("数据不是二维的")
        return 1

    mark = ['or', 'ob', 'og', 'ok', '^r', '+r', 'sr', 'dr', '<r', 'pr']
    if k > len(mark):
        print("k值太大了")
        return 1

    # 绘制所有的样本
    for i in range(m):
        markIndex = int(clusterAssment[i,0])
        plt.plot(dataSet[i,0],dataSet[i,1],mark[markIndex])

    mark = ['Dr', 'Db', 'Dg', 'Dk', '^b', '+b', 'sb', 'db', '<b', 'pb']
    # 绘制质心
    for i in range(k):
        plt.plot(centroids[i,0],centroids[i,1],mark[i])

    plt.show()
dataSet = loadDataSet("test.txt")
# print(dataSet)
k = 4
centroids,clusterAssment = KMeans(dataSet,k)

showCluster(dataSet,k,centroids,clusterAssment)

data:

1.65    4.28
-3.45  3.42
4.84   -1.15
-5.37  -3.36
0.97   2.92
-3.57  1.53
0.45   -3.30
-3.49  -1.72
2.67   1.59
-3.16  3.19

Alphapeople

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
K-Means的numpy实现

K-Means是一种经典的聚类算法,其基本思想是对于一组数据首先随机找k个簇,然后每个数据都与这k个簇分别计算距离,与每个簇距离最近的点就分给这个簇,然后在选取每个簇的中心点作为新的簇,再次迭代直到簇不怎么变化为止,以下是numpy实现的代码:import numpy as npimport matplotlib.pyplot as pltdef show(x,y,crowded_x,...
复制链接

扫一扫

专栏目录