聚类算法 之 K-means算法和手写代码

本文介绍了K-means聚类算法的基本原理,包括其作为无监督学习算法的应用,如图像检测中的边框回归。文章详细阐述了K-means算法的流程,并提供了一个简单的Python实现,特别强调了Python中数据处理的注意事项。最后,展示了实验结果和收敛趋势。
摘要由CSDN通过智能技术生成

聚类算法 之 K-means算法和手写代码

聚类算法为无监督学习算法,用处很多,比如图像检测中边框回归,往往会对图片的宽和高进行聚类,找到几个比较典型anchor,然后再通过边框回归设定权重,求出目标图像和anchor的宽高的比值。
聚类算法种类很多,主流的有基于划分、基于层次、基于密度、基于网络的。其中K-means聚类算法就是基于划分的,这个很好理解,目标是找到几个相同类型的数据的中心点,然后把离这几个中心点最近的划分成一类。判断标准也很好理解,就是数据离某个中心点的距离比里其他的中心点距离都小,就聚集在这个中心点周围。

1.基本原理

K-means中“K”就是要分成K个类,“mean”表示这个中心点的计算是通过将某些可能是一类的数据求平均,计算得到中心点,“s”表示有多个这样的平均值。
算法流程大概是这样的:
①确定将数据分成几类,就是定下K的值
②确定K个初始中心点,用于将数据围绕这几个中心点进行汇聚
③计算每个数据到中心点的距离,离哪个最近就划分给谁
④计算每个划分好的数据类的均值点,也就是每个维度求平均,定一个新的中心点
⑤重负③④步骤,直到完成指定次数或者达到某个终止条件。

2.代码

看了很多介绍,不如自己写一个K-means,Python的数据结构和c或者c++很不一样,这里主要用array存储数据,数据处理的时候有两个小坑:
一是建立array的结构以后,使用append或者concatenate的时候一定注意是哪一层的数据进行了组合,否则数据结构和索引会乱
二是浅拷贝和深拷贝,两个array使用“=”赋值后,实际上是进行了指针的复制,这里使用的解决办法是采用

y = [x for in array]

的方式实现真正意义的浅拷贝,这个代码结构相当于

for x in array:
    y.append(x)

这样无论如何修改array,y的值都不会变化
如果使用

x =  array

令x作为暂存的中间变量,x将起不到暂存作用,x中元素的内容将跟着array联动
下面是一个基本的演示代码:

import numpy as np
import os
import matplotlib.pyplot as plt

#返回array的均值点,如果arr中为多维,将对每个维度求平均,最后确定一个均值点
def mean(arr):
    arr_mean = []
    if arr.__len__() == 0:
        return 0
    for i in range(arr[0].__len__()):
        arr_mean.append(np.mean([e[i] for e in arr]))
    return arr_mean

#返回点e和点集arr中每个点的距离
def distance(e,arr):
    dsum = 0
    for a in arr:
        for i in range(arr[0].__len__()):
            dsum += pow((a[i] - e[i]),2)
    d = np.sqrt(dsum)
    return d

#返回点集arr1和点集arr2的距离
def distance2(arr1,arr2):
    if arr1.__len__() != arr2.__len__():
    
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北溟客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值