机器学习算法:K均值算法

K均值聚类算法是一种广泛使用的聚类分析方法,其基本原理是将数据集划分为K个簇,每个簇由其质心(即簇中所有点的中心)描述。该算法通过迭代优化过程,将数据集中的每个点分配到最近的质心所形成的簇中,并更新每个簇的质心,直到质心不再发生变化或达到预设的终止条件。

K均值聚类算法具有以下优点:

  1. 简单且易于实现:K均值聚类算法的基本原理和步骤相对简单,易于理解和实现。
  2. 可扩展性:该算法能够处理大型数据集,并且在大多数情况下具有高效的计算速度。
  3. 对于凸形簇有效:当数据集中的簇为凸形状时,K均值聚类能够较好地将数据划分为不同的簇。

缺点:

  1. 对初始质心敏感:算法对初始质心的选择非常敏感,不同的初始质心可能导致不同的聚类结果,因此可能需要多次运行算法并选择最佳结果。
  2. 需要预先指定簇的数量:用户需要预先指定簇的数量K,但在现实应用中,确定合适的K值可能是一个挑战。
  3. 对非凸形状簇效果差:K均值聚类假设簇为球形或凸形状,对于非凸形状的簇效果可能较差。
  4. 对噪声和离群点敏感:算法对噪声和离群点很敏感,可能会将它们错误地分配到簇中。
     

k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

import numpy as np
import pandas as pd
import random
import sys
import time
class KMeansClusterer:
    def __init__(self,ndarray,cluster_num):
        self.ndarray = ndarray
        self.cluster_num = cluster_num
        self.points=self.__pick_start_point(ndarray,cluster_num)
        
    def cluster(self):
        result = []
        for i in range(self.cluster_num):
            result.append([])
        for item in self.ndarray:
            distance_min = sys.maxsize
            index=-1
            for i in range(len(self.points)):                
                distance = self.__distance(item,self.points[i])
                if distance < distance_min:
                    distance_min = distance
                    index = i
            result[index] = result[index] + [item.tolist()]
        new_center=[]
        for item in result:
            new_center.append(self.__center(item).tolist())
        # 中心点未改变,说明达到稳态,结束递归
        if (self.points==new_center).all():
            return result
        
        self.points=np.array(new_center)
        return self.cluster()
            
    def __center(self,list):
        '''计算一组坐标的中心点
        '''
        # 计算每一列的平均值
        return np.array(list).mean(axis=0)
    def __distance(self,p1,p2):
        '''计算两点间距
        '''
        tmp=0
        for i in range(len(p1)):
            tmp += pow(p1[i]-p2[i],2)
        return pow(tmp,0.5)
    def __pick_start_point(self,ndarray,cluster_num):
       
        if cluster_num <0 or cluster_num > ndarray.shape[0]:
            raise Exception("簇数设置有误")
     
        # 随机点的下标
        indexes=random.sample(np.arange(0,ndarray.shape[0],step=1).tolist(),cluster_num)
        points=[]
        for index in indexes:
            points.append(ndarray[index].tolist())
        return np.array(points)

  • 19
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值