本文从互联网搬运,只用于本人学习记录。
聚类算法KMeans
K-means 是我们最常用的基于欧式距离的聚类算法,其认为两个目标的距离越近,相似度越大。
1. 算法
1.1. 算法步骤
1.2. 复杂度
2. 优缺点
优点:
- 容易理解,聚类效果不错,虽然是局部最优, 但往往局部最优就够了;
- 处理大数据集的时候,该算法可以保证较好的伸缩性;
- 当簇近似高斯分布的时候,效果非常不错;
- 算法复杂度低。
缺点:
- K 值需要人为设定,不同 K 值得到的结果不一样;
- 对初始的簇中心敏感,不同选取方式会得到不同结果;
- 对异常值敏感;
- 样本加粗样式只能归为一类,不适合多分类**任务;
- 不适合太离散的分类、样本类别不平衡的分类、非凸形状的分类。
3. 算法调优 & 改进
3.1. 数据预处理
K-means 的本质是基于欧式距离的数据划分算法,均值和方差大的维度将对数据的聚类产生决定性影响。所以未做归一化处理和统一单位的数据是无法直接参与运算和比较的。常见的数据预处理方式有:数据归一化,数据标准化。
此外,离群点或者噪声数据会对均值产生较大的影响,导致中心偏移,因此我们还需要对数据进行异常点检测。
欧氏距离:
3.2. 合理选择 K 值
K 值的选取对 K-means 影响很大,这也是 K-means 最大的缺点,常见的选取 K 值的方法有:手肘法、Gap statistic 方法。
- 手肘法
- Gap statistic方法
3.3. 采用核函数
基于欧式距离的 K-means 假设了各个数据簇的数据具有一样的的先验概率并呈现球形分布,但这种分布在实际生活中并不常见。面对非凸的数据分布形状时我们可以引入核函数来优化,这时算法又称为核 K-means 算法,是核聚类方法的一种。核聚类方法的主要思想是通过一个非线性映射,将输入空间中的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类。非线性映射增加了数据点线性可分的概率,从而在经典的聚类算法失效的情况下,通过引入核函数可以达到更为准确的聚类结果。
3.4. K-Means++
3.5. KMeans代码
import numpy as np
import matplotlib.pyplot as plt
import random
import math
class KMeans(object):
def __init__(self, k, data):
self.k = k # 簇的个数
self.data = data # 矩阵样本
# 欧式距离计算
def getDistance(self, n1, n2):
# distance = 0.0
# for a, b in zip(n1, n2):
# distance += math.pow(a - b, 2)
# return math.sqrt(distance)
return np.linalg.norm(n1 - n2, ord=2)
# 簇心初始化
def center_init(self):
idx = random.sample(range(len(self.data)), k=self.k) # 随机抽取k个样本下标
self.centers = self.data[idx] # 选取k个样本作为簇中心
def fit(self):
self.center_init() # 簇心初始化
clusterDistance = np.zeros((len(self.data), 2)) # 记录每个样本距离最近的簇心下标与对应的距离
flag = True # 控制迭代的标志,控制聚类迭代次数
while(flag):
flag = False
# 遍历每个样本
for i in range(len(self.data)):
minIdx = -1 # 距离最小簇心下标
minDistance = math.pow(10, 5) # 最小距离
for j in range(self.k): # 遍历每个簇,计算与该样本的距离
dist = self.getDistance(self.data[i], self.centers[j]) # 样本i到簇j的距离
if dist < minDistance:
minDistance = dist
minIdx = j
if clusterDistance[i][0] != minIdx: # 如果样本i所属的簇不是minIdx,说明样本i的簇类别变了
flag = True # 此时应该继续迭代,更新簇心
# 记录样本i与簇的最小距离dist,及对应簇的下标j
clusterDistance[i][0] = minIdx
clusterDistance[i][1] = minDistance
# 样本的簇划分好之后,用样本均值更新簇心
for i in range(self.k):
x = self.data[clusterDistance[:, 0] == i] # 取出属于簇i的所有样本
self.centers[i] = np.mean(x, axis=0) # 取样本均值作为新的簇心
# 二维样本点
x1 = np.random.randint(0, 50, (50, 2))
x2 = np.random.randint(40, 100, (50, 2))
x3 = np.random.randint(90, 120, (50, 2))
data = np.vstack((x1, x2, x3))
model = KMeans(k=3, data=data)
model.fit()
centers = model.centers # 聚类中心
# 可视化聚类中心
plt.scatter(data[:, 0], data[:, 1], c='b', s=10)
plt.scatter(centers[:, 0], centers[:, 1], c='r', s=30, marker='*')
plt.show()
3.6. ISODATA
ISODATA 的全称是迭代自组织数据分析法。它解决了 K 的值需要预先人为的确定这一缺点。而当遇到高维度、海量的数据集时,人们往往很难准确地估计出 K 的大小。ISODATA 就是针对这个问题进行了改进,它的思想也很直观:当属于某个类别的样本数过少时把这个类别去除,当属于某个类别的样本数过多、分散程度较大时把这个类别分为两个子类别。