机器学习算法：K均值算法

最新推荐文章于 2024-06-20 13:47:20 发布

蕊在花中羞涩

最新推荐文章于 2024-06-20 13:47:20 发布

阅读量410

点赞数 19

分类专栏：算法（java与python）数据挖掘 python基础文章标签：机器学习算法均值算法

本文链接：https://blog.csdn.net/R418520/article/details/139636906

版权

数据挖掘同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

python基础

15 篇文章 0 订阅

订阅专栏

算法（java与python）

9 篇文章 0 订阅

订阅专栏

K均值聚类算法是一种广泛使用的聚类分析方法，其基本原理是将数据集划分为K个簇，每个簇由其质心（即簇中所有点的中心）描述。该算法通过迭代优化过程，将数据集中的每个点分配到最近的质心所形成的簇中，并更新每个簇的质心，直到质心不再发生变化或达到预设的终止条件。

K均值聚类算法具有以下优点：

简单且易于实现：K均值聚类算法的基本原理和步骤相对简单，易于理解和实现。
可扩展性：该算法能够处理大型数据集，并且在大多数情况下具有高效的计算速度。
对于凸形簇有效：当数据集中的簇为凸形状时，K均值聚类能够较好地将数据划分为不同的簇。

缺点：

对初始质心敏感：算法对初始质心的选择非常敏感，不同的初始质心可能导致不同的聚类结果，因此可能需要多次运行算法并选择最佳结果。
需要预先指定簇的数量：用户需要预先指定簇的数量K，但在现实应用中，确定合适的K值可能是一个挑战。
对非凸形状簇效果差：K均值聚类假设簇为球形或凸形状，对于非凸形状的簇效果可能较差。
对噪声和离群点敏感：算法对噪声和离群点很敏感，可能会将它们错误地分配到簇中。

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

import numpy as np
import pandas as pd
import random
import sys
import time
class KMeansClusterer:
    def __init__(self,ndarray,cluster_num):
        self.ndarray = ndarray
        self.cluster_num = cluster_num
        self.points=self.__pick_start_point(ndarray,cluster_num)
        
    def cluster(self):
        result = []
        for i in range(self.cluster_num):
            result.append([])
        for item in self.ndarray:
            distance_min = sys.maxsize
            index=-1
            for i in range(len(self.points)):                
                distance = self.__distance(item,self.points[i])
                if distance < distance_min:
                    distance_min = distance
                    index = i
            result[index] = result[index] + [item.tolist()]
        new_center=[]
        for item in result:
            new_center.append(self.__center(item).tolist())
        # 中心点未改变，说明达到稳态，结束递归
        if (self.points==new_center).all():
            return result
        
        self.points=np.array(new_center)
        return self.cluster()
            
    def __center(self,list):
        '''计算一组坐标的中心点
        '''
        # 计算每一列的平均值
        return np.array(list).mean(axis=0)
    def __distance(self,p1,p2):
        '''计算两点间距
        '''
        tmp=0
        for i in range(len(p1)):
            tmp += pow(p1[i]-p2[i],2)
        return pow(tmp,0.5)
    def __pick_start_point(self,ndarray,cluster_num):
       
        if cluster_num <0 or cluster_num > ndarray.shape[0]:
            raise Exception("簇数设置有误")
     
        # 随机点的下标
        indexes=random.sample(np.arange(0,ndarray.shape[0],step=1).tolist(),cluster_num)
        points=[]
        for index in indexes:
            points.append(ndarray[index].tolist())
        return np.array(points)

蕊在花中羞涩

关注

19
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法：K均值算法

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。K均值聚类算法是一种广泛使用的聚类分析方法，其基本原理是将数据集划分为K个簇，每个簇由其质心（即簇中所有点的中心）描述。该算法通过迭代优化过程，将数据集中的每个点分配到最近的质心所形成的簇中，并更新每个簇的质心，直到质心不再发生变化或达到预设的终止条件。
复制链接

扫一扫