k-means算法学习

最新推荐文章于 2024-03-20 21:43:02 发布

Artorias7

最新推荐文章于 2024-03-20 21:43:02 发布

阅读量235

点赞数

分类专栏：计算智能文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_42646763/article/details/100664838

版权

计算智能专栏收录该内容

7 篇文章 4 订阅

订阅专栏

k-means算法是一种无监督聚类方法，通过迭代寻找最佳聚类中心。该算法简单易懂，适用于大数据集，但对初始中心点选择敏感，并需要预先设定类别数量。在Python中可以实现k-means算法进行数据分组。

摘要由CSDN通过智能技术生成

k均值聚类算法（k-means clustering algorithm）

简介

k-means算法是一种聚类算法，所谓聚类，即根据相似性原则，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于，聚类过程为无监督过程，即待处理数据对象没有任何先验知识，而分类过程为有监督过程，即存在有先验知识的训练数据集。

算法实现

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是:
1、随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。
2、聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。
3、这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

性质

k均值聚类是使用最大期望算法（Expectation-Maximization algorithm）求解的高斯混合模型（Gaussian Mixture Model, GMM）在正态分布的协方差为单位矩阵，且隐变量的后验分布为一组狄拉克δ函数时所得到的特例。

优缺点分析

优点：
算法简单，容易理解
大数据集时，对噪声数据不敏感
缺点：
对初始中心点敏感
需要在测试前知道类别的个数
只适合分布呈凸型或者球形的数据集
对于高维数据，距离的度量并不是很好

python实现

import numpy as np
import pandas as pd
import random
import sys
import time
class KMeansClusterer:
    def __init__(self,ndarray,cluster_num):
        self.ndarray = ndarray
        self.cluster_num = cluster_num
        self.points=self.__pick_start_point(ndarray,cluster_num)
         
    def cluster(self):
        result = []
        for i in range(self.cluster_num):
            result.append([])
        for item in self.ndarray:
            distance_min = sys.maxsize
            index=-1
            for i in range(len(self.points)):                
                distance = self.__distance(item,self.points[i])
                if distance < distance_min:
                    distance_min = distance
                    index = i
            result[index] = result[index] + [item.tolist()]
        new_center=[]
        for item in result:
            new_center.append(self.__center(item).tolist())
        # 中心点未改变，说明达到稳态，结束递归
        if (self.points==new_center).all():
            return result
         
        self.points=np.array(new_center)
        return self.cluster()
             
    def __center(self,list):
        '''计算一组坐标的中心点
        '''
        # 计算每一列的平均值
        return np.array(list).mean(axis=0)
    def __distance(self,p1,p2):
        '''计算两点间距
        '''
        tmp=0
        for i in range(len(p1)):
            tmp += pow(p1[i]-p2[i],2)
        return pow(tmp,0.5)
    def __pick_start_point(self,ndarray,cluster_num):
        
        if cluster_num <0 or cluster_num > ndarray.shape[0]:
            raise Exception("簇数设置有误")
      
        # 随机点的下标
        indexes=random.sample(np.arange(0,ndarray.shape[0],step=1).tolist(),cluster_num)
        points=[]
        for index in indexes:
            points.append(ndarray[index].tolist())
        return np.array(points)

参考资料：
1、百度百科
2、博客
3、博客
4、博客

Artorias7

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
k-means算法学习

k均值聚类算法（k-means clustering algorithm）简介k-means算法是一种聚类算法，所谓聚类，即根据相似性原则，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于，聚类过程为无监督过程，即待处理数据对象没有任何先验知识，而分类过程为有监督过程，即存在有先验知识的训练数据集。算法实现k均值聚类算法（k-...
复制链接

扫一扫

专栏目录