聚类算法k-means

最新推荐文章于 2023-07-20 20:56:57 发布

帆的孤独啊

最新推荐文章于 2023-07-20 20:56:57 发布

阅读量222

点赞数

分类专栏：机器学习实战

本文链接：https://blog.csdn.net/futangxiang4793/article/details/81609353

版权

机器学习实战专栏收录该内容

13 篇文章 0 订阅

订阅专栏

# 无监督学习
# 聚类：将相似对象归到同一簇中

'''
区别knn(k-nearest neiborhood) kmeans,前者是有监督学习（有标签），后者属于无监督学习
关于nonzero补充：a=[1,0,1] 返回（array([0,2]),）nonzero(a)[0]返回 array([0, 2])

算法流程
创建k个点作为起始质心
对数据集中每个点
    对每个质心
        计算质心到数据点距离
    将数据分配到最近的簇
对每个簇，计算所有点均值作为质心
'''

import numpy as np

def loadDataSet(filename):
    dataMat = []
    fr = open(filename)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float, curLine))
        dataMat.append(fltLine)
    return dataMat

def distEclud(vecA, vecB):
    return np.sqrt(np.sum(np.power(vecA-vecB, 2)))

# 初始化质心
# 注意float()只能对单个数强制转换，对向量要用list(map(float, a)) python3中map返回object,要转为list
def randCent(dataSet, k):
    n = np.shape(dataSet)[1]
    # 一行是一个簇，每列对应一个特征分量
    centroids = np.mat(np.zeros((k, n)))
    for j in range(n):
        minj = np.min(dataSet[:, j])
        rangeJ = float(np.max(dataSet[:, j]) - minj)
        centroids[:, j] = minj+rangeJ*np.random.rand(k, 1)
    return centroids


# clusterAssment 簇分配矩阵（记录n个向量分配到那个簇中） 第一列记录簇索引值 第二列记录误差（当前点到质心的距离平方）
def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = np.shape(dataSet)[0]
    clusterAssment = np.mat(np.zeros((m, 2)))
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):
            # minIndex记录到当前节点最近簇的下标
            minDist = np.inf
            minIndex = -1
            for j in range(k):
                distJi = distMeas(centroids[j, :], dataSet[i, :])
                if distJi < minDist:
                    minDist = distJi
                    minIndex = j
            # 第一列是簇索引值 不等后代表发生变化
            if clusterAssment[i, 0] != minIndex:
                clusterChanged = True
            clusterAssment[i, :] = minIndex, minDist**2
        # 更新质心位置，对之前标记为簇下标的点筛选出来并计算均值作为新的簇
        # 对array或者mat类型支持 a[[0,1]]形式，代表取矩阵a的第一行和第二行构成新矩阵
        for cent in range(k):
            ptsInClust = dataSet[np.nonzero(clusterAssment[:, 0].A==cent)[0]]
            centroids[cent, :] = np.mean(ptsInClust, axis=0)
    return centroids, clusterAssment

dataMat = np.mat(loadDataSet('testSet.txt'))
myCentroids, clustAss = kMeans(dataMat, 4)
print(myCentroids)

帆的孤独啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类算法k-means

# 无监督学习# 聚类：将相似对象归到同一簇中'''区别knn(k-nearest neiborhood) kmeans,前者是有监督学习（有标签），后者属于无监督学习关于nonzero补充：a=[1,0,1] 返回（array([0,2]),）nonzero(a)[0]返回 array([0, 2])算法流程创建k个点作为起始质心对数据集中每个点对每个质心 ...
复制链接

扫一扫

专栏目录