聚类算法之 K-means算法和手写代码

最新推荐文章于 2024-06-25 09:45:55 发布

北溟客

最新推荐文章于 2024-06-25 09:45:55 发布

阅读量929

点赞数 1

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_41736617/article/details/106879544

版权

本文介绍了K-means聚类算法的基本原理，包括其作为无监督学习算法的应用，如图像检测中的边框回归。文章详细阐述了K-means算法的流程，并提供了一个简单的Python实现，特别强调了Python中数据处理的注意事项。最后，展示了实验结果和收敛趋势。

摘要由CSDN通过智能技术生成

聚类算法为无监督学习算法，用处很多，比如图像检测中边框回归，往往会对图片的宽和高进行聚类，找到几个比较典型anchor，然后再通过边框回归设定权重，求出目标图像和anchor的宽高的比值。
聚类算法种类很多，主流的有基于划分、基于层次、基于密度、基于网络的。其中K-means聚类算法就是基于划分的，这个很好理解，目标是找到几个相同类型的数据的中心点，然后把离这几个中心点最近的划分成一类。判断标准也很好理解，就是数据离某个中心点的距离比里其他的中心点距离都小，就聚集在这个中心点周围。

1.基本原理

K-means中“K”就是要分成K个类，“mean”表示这个中心点的计算是通过将某些可能是一类的数据求平均，计算得到中心点，“s”表示有多个这样的平均值。
算法流程大概是这样的：
①确定将数据分成几类，就是定下K的值
②确定K个初始中心点，用于将数据围绕这几个中心点进行汇聚
③计算每个数据到中心点的距离，离哪个最近就划分给谁
④计算每个划分好的数据类的均值点，也就是每个维度求平均，定一个新的中心点
⑤重负③④步骤，直到完成指定次数或者达到某个终止条件。

2.代码

看了很多介绍，不如自己写一个K-means，Python的数据结构和c或者c++很不一样，这里主要用array存储数据，数据处理的时候有两个小坑：
一是建立array的结构以后，使用append或者concatenate的时候一定注意是哪一层的数据进行了组合，否则数据结构和索引会乱
二是浅拷贝和深拷贝，两个array使用“=”赋值后，实际上是进行了指针的复制，这里使用的解决办法是采用

y = [x for in array]

的方式实现真正意义的浅拷贝，这个代码结构相当于

for x in array:
    y.append(x)

这样无论如何修改array，y的值都不会变化
如果使用

x =  array

令x作为暂存的中间变量，x将起不到暂存作用，x中元素的内容将跟着array联动
下面是一个基本的演示代码：

import numpy as np
import os
import matplotlib.pyplot as plt

#返回array的均值点，如果arr中为多维，将对每个维度求平均，最后确定一个均值点
def mean(arr):
    arr_mean = []
    if arr.__len__() == 0:
        return 0
    for i in range(arr[0].__len__()):
        arr_mean.append(np.mean([e[i] for e in arr]))
    return arr_mean

#返回点e和点集arr中每个点的距离
def distance(e,arr):
    dsum = 0
    for a in arr:
        for i in range(arr[0].__len__()):
            dsum += pow((a[i] - e[i]),2)
    d = np.sqrt(dsum)
    return d

#返回点集arr1和点集arr2的距离
def distance2(arr1,arr2):
    if arr1.__len__() != arr2.__len__():

最低0.47元/天解锁文章

北溟客

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
1
评论
聚类算法之 K-means算法和手写代码

聚类算法之 K-means算法和手写代码1.基本原理2.代码3.实验结果聚类算法为无监督学习算法，用处很多，比如图像检测中边框回归，往往会对图片的宽和高进行聚类，找到几个比较典型anchor，然后再通过边框回归设定权重，求出目标图像和anchor的宽高的比值。聚类算法种类很多，主流的有基于划分、基于层次、基于密度、基于网络的。其中K-means聚类算法就是基于划分的，这个很好理解，目标是找到几个相同类型的数据的中心点，然后把离这几个中心点最近的划分成一类。判断标准很好理解，就是数据离某个中心点的距离比
复制链接

扫一扫