“机器学习实战”刻意练习——聚类问题：K均值聚类

最新推荐文章于 2022-05-02 21:36:58 发布

nanashi_F

最新推荐文章于 2022-05-02 21:36:58 发布

阅读量1.1k

点赞数

分类专栏：机器学习算法文章标签：聚类算法机器学习 python

本文链接：https://blog.csdn.net/nanashi_F/article/details/103629718

版权

本文详细介绍了K均值聚类算法，包括聚类的基本概念、K均值算法流程、优缺点及适用数据类型。还讨论了如何通过后处理提升聚类性能，并介绍了二分K-均值算法作为改进方法。最后，提供了K-均值和二分K-均值的Python代码实现示例。

摘要由CSDN通过智能技术生成

一、概述

聚类是一种无监督的学习，它将相似的对象归到同一个簇中。

聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。

K均值（K-means）聚类算法可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。

在介绍K-均值算法之前，先讨论一下簇识别（cluster identification）。
簇识别给出聚类结果的含义。
假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。

聚类与分类的最大不同在于，分类的目标事先已知，而聚类则不一样。
因为其产生的结果与分类相同，而只是类别没有预先定义，聚类有时也被称为无监督分类（unsupervisedclassification）。

聚类分析试图将相似对象归入同一簇，将不相似对象归到不同簇。
相似这一概念取决于所选择的相似度计算方法。到底使用哪种相似度计算方法取决于具体应用。

优缺点
优点：容易实现。
缺点：可能收敛到局部最小值，在大规模数据集上收敛较慢。
适用数据类型
数值型数据
K-均值聚类的一般流程
(1) 收集数据：使用任意方法。
(2) 准备数据：需要数值型数据来计算距离，也可以将标称型数据映射为二值型数据再用于距离计算。
(3) 分析数据：使用任意方法。
(4) 训练算法：不适用于无监督学习，即无监督学习没有训练过程。
(5) 测试算法：应用聚类算法、观察结果。可以使用量化的误差指标如误差平方和来评价算法的结果。
(6) 使用算法：可以用于所希望的任何应用。通常情况下，簇质心可以代表整个簇的数据来做出决策。

二、基本概念

1.K-均值聚类算法

K-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的，每一个簇通过其质心（centroid），即簇中所有点的中心来描述。

K-均值算法的工作流程伪代码如下：

创建k个点作为起始质心（经常是随机选择）
当任意一个点的簇分配结果发生改变时
	对数据集中的每个数据点
		对每个质心
			计算质心与数据点之间的距离
	将数据点分配到距其最近的簇
对每一个簇，计算簇中所有点的均值并将均值作为质心

2.使用后处理来提高聚类性能

在 kMeans 的函数测试中，可能偶尔会陷入局部最小值（局部最优的结果，但不是全局最优的结果），如下图：
在这里插入图片描述
出现这个问题有很多原因，可能是k值取的不合适，可能是距离函数不合适，可能是最初随机选取的质心靠的太近，也可能是数据本身分布的问题。

为了解决这个问题，我们可以对生成的簇进行后处理，一种方法是将具有最大SSE值的簇划分成两个簇。具体实现时可以将最大簇包含的点过滤出来并在这些点上运行K-均值算法，令k设为2。

SSE
SSE（Sum of Squared Error，误差平方和）是一种用于度量聚类效果的指标，SSE值越小表示数据点越接近于它们的质心，聚类效果也越好。因为对误差取了平方，因此更加重视那些远离中心的点。一种肯定可以降低SSE值的方法是增加簇的个数，但这违背了聚类的目标。聚类的目标是在保持簇数目不变的情况下提高簇的质量。

为了保持簇总数不变，可以将某两个簇进行合并。从上图中很明显就可以看出，应该将上图下部两个出错的簇质心进行合并。那么问题来了，我们可以很容易对二维数据上的聚类进行可视化，但是如果遇到40维的数据应该如何去做？

有两种可以量化的办法：

合并最近的质心，通过计算所有质心之间的距离，然后合并距离最近的两个点来实现。
合并两个使得SSE增幅最小的质心，需要合并两个簇然后计算总SSE值。必须在所有可能的两个簇上重复上述处理过程，直到找到合并最佳的两个簇为止。

3.二分 K-Means 聚类算法

为克服K-均值算法收敛于局部最小值的问题，有人提出了另一个称为二分K-均值（bisecting K-means）的算法。该算法首先将所有点作为一个簇，然后将该簇一分为二。之后选择其中一个簇继续进行划分，选择哪一个簇进行划分取决于对其划分是否可以最大程度降低SSE的值。上述基于SSE的划分过程不断重复，直到得到用户指定的簇数目为止。

二分 K-Means 聚类算法伪代码如下：

将所有点看成一个簇
当簇数目小于 k 时
对于每一个簇
	计算总误差
	在给定的簇上面进行 KMeans 聚类（k=2）
	计算将该簇一分为二之后的总误差
选择使得误差最小的那个簇进行划分操作

另一种做法是选择 SSE 最大的簇进行划分，直到簇数目达到用户指定的数目位置。接下来主要介绍该做法的python2代码实现

三、代码实现

1.K-均值聚类算法

先给出数据集分布：
在这里插入图片描述

import numpy as np
import matplotlib.pyplot as plt

def loadDataSet(fileName): 
    """   
    加载数据集
    - - - -
    fileName - 文件路径
    """
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        #映射所有的元素为 float（浮点数）类型
        fltLine = list(map(float,curLine))    
        dataMat.append(fltLine)
    return np.mat(dataMat)

def distEclud(vecA, vecB):
    """
    计算两个向量的欧式距离
    - - - -
    vecA - 向量A

    vecB - 向量B
    """
    return np.sqrt(np.sum(np.power(vecA - vecB, 2)))

def randCent(dataSet, k):
    """
    构建一个包含 k 个随机质心的集合
    - - - -
    dataSet - 数据集

    k - 簇的数目
    """
    # 列的数量，即数据的特征个数
    n = np.shape(dataSet)[1]
    # 创建k个质心矩阵