聚类算法为无监督学习算法,用处很多,比如图像检测中边框回归,往往会对图片的宽和高进行聚类,找到几个比较典型anchor,然后再通过边框回归设定权重,求出目标图像和anchor的宽高的比值。
聚类算法种类很多,主流的有基于划分、基于层次、基于密度、基于网络的。其中K-means聚类算法就是基于划分的,这个很好理解,目标是找到几个相同类型的数据的中心点,然后把离这几个中心点最近的划分成一类。判断标准也很好理解,就是数据离某个中心点的距离比里其他的中心点距离都小,就聚集在这个中心点周围。
1.基本原理
K-means中“K”就是要分成K个类,“mean”表示这个中心点的计算是通过将某些可能是一类的数据求平均,计算得到中心点,“s”表示有多个这样的平均值。
算法流程大概是这样的:
①确定将数据分成几类,就是定下K的值
②确定K个初始中心点,用于将数据围绕这几个中心点进行汇聚
③计算每个数据到中心点的距离,离哪个最近就划分给谁
④计算每个划分好的数据类的均值点,也就是每个维度求平均,定一个新的中心点
⑤重负③④步骤,直到完成指定次数或者达到某个终止条件。
2.代码
看了很多介绍,不如自己写一个K-means,Python的数据结构和c或者c++很不一样,这里主要用array存储数据,数据处理的时候有两个小坑:
一是建立array的结构以后,使用append或者concatenate的时候一定注意是哪一层的数据进行了组合,否则数据结构和索引会乱
二是浅拷贝和深拷贝,两个array使用“=”赋值后,实际上是进行了指针的复制,这里使用的解决办法是采用
y = [x for in array]
的方式实现真正意义的浅拷贝,这个代码结构相当于
for x in array:
y.append(x)
这样无论如何修改array,y的值都不会变化
如果使用
x = array
令x作为暂存的中间变量,x将起不到暂存作用,x中元素的内容将跟着array联动
下面是一个基本的演示代码:
import numpy as np
import os
import matplotlib.pyplot as plt
#返回array的均值点,如果arr中为多维,将对每个维度求平均,最后确定一个均值点
def mean(arr):
arr_mean = []
if arr.__len__() == 0:
return 0
for i in range(arr[0].__len__()):
arr_mean.append(np.mean([e[i] for e in arr]))
return arr_mean
#返回点e和点集arr中每个点的距离
def distance(e,arr):
dsum = 0
for a in arr:
for i in range(arr[0].__len__()):
dsum += pow((a[i] - e[i]),2)
d = np.sqrt(dsum)
return d
#返回点集arr1和点集arr2的距离
def distance2(arr1,arr2):
if arr1.__len__() != arr2.__len__():