使用 Spark MLlib 做 K-means 聚类分析

最新推荐文章于 2024-05-05 04:43:16 发布

Xlucas

最新推荐文章于 2024-05-05 04:43:16 发布

阅读量3.8k

点赞数 2

分类专栏：机器学习文章标签：机器学习 spark 算法 mlib

本文链接：https://blog.csdn.net/paicMis/article/details/76484434

版权

本文介绍了如何使用Spark MLlib进行K-means聚类分析，讲解了Spark MLlib的机器学习库和ML Pipeline的区别，以及K-means算法的原理。通过Spark MLlib的API展示了K-means聚类的实现过程，并提到了聚类个数选择和初始中心点选择的重要性。此外，还给出了KMeans类的关键参数和KMeansModel的predict方法，最后以一个销售数据的案例分析进行了实践操作。

摘要由CSDN通过智能技术生成

Spark 机器学习库介绍

Spark 机器学习库提供了常用机器学习算法的实现，包括聚类，分类，回归，协同过滤，维度缩减等。使用 Spark 机器学习库来做机器学习工作，可以说是非常的简单，通常只需要在对原始数据进行处理后，然后直接调用相应的 API 就可以实现。但是要想选择合适的算法，高效准确地对数据进行分析，您可能还需要深入了解下算法原理，以及相应 Spark MLlib API 实现的参数的意义。
需要提及的是，Spark 机器学习库从 1.2 版本以后被分为两个包，分别是：
spark.mllib
Spark MLlib 历史比较长了，1.0 以前的版本中已经包含了，提供的算法实现都是基于原始的 RDD，从学习角度上来讲，其实比较容易上手。如果您已经有机器学习方面的经验，那么您只需要熟悉下 MLlib 的 API 就可以开始数据分析工作了。想要基于这个包提供的工具构建完整并且复杂的机器学习流水线是比较困难的。
spark.ml
Spark ML Pipeline 从 Spark1.2 版本开始，目前已经从 Alpha 阶段毕业，成为可用并且较为稳定的新的机器学习库。ML Pipeline 弥补了原始 MLlib 库的不足，向用户提供了一个基于 DataFrame 的机器学习工作流式 API 套件，使用 ML Pipeline API，我们可以很方便的把数据处理，特征转换，正则化，以及多个机器学习算法联合起来，构建一个单一完整的机器学习流水线。显然，这种新的方式给我们提供了更灵活的方法，而且这也更符合机器学习过程的特点。
从官方文档来看，Spark ML Pipeline 虽然是被推荐的机器学习方式，但是并不会在短期内替代原始的 MLlib 库，因为 MLlib 已经包含了丰富稳定的算法实现，并且部分 ML Pipeline 实现基于 MLlib。而且就笔者看来，并不是所有的机器学习过程都需要被构建成一个流水线，有时候原始数据格式整齐且完整，而且使用单一的算法就能实现目标，我们就没有必要把事情复杂化，采用最简单且容易理解的方式才是正确的选择。
本文基于 Spark 1.5，向读者展示使用 MLlib API 进行聚类分析的过程。读者将会发现，使用 MLlib API 开发机器学习应用方式是比较简单的，相信本文可以使读者建立起信心并掌握基本方法，以便在后续的学习和工作中事半功倍。

K-means 聚类算法原理
聚类分析是一个无监督学习 (Unsupervised Learning) 过程, 一般是用来对数据对象按照其特征属性进行分组，经常被应用在客户分群，欺诈检测，图像分析等领域。K-means 应该是最有名并且最经常使用的聚类算法了，其原理比较容易理解，并且聚类效果良好，有着广泛的使用。
和诸多机器学习算法一样，K-means 算法也是一个迭代式的算法，其主要步骤如下:

第一步，选择 K 个点作为初始聚类中心。

第二步，计算其余所有点到聚类中心的距离，并把每个点划分到离它最近的聚类中心所在的聚类中去。在这里，衡量距离一般有多个函数可以选择，最常用的是欧几里得距离 (Euclidean Distance), 也叫欧式距离。公式如下：
这里写图片描述
其中 C 代表中心点，X 代表任意一个非中心点。

第三步，重新计算每个聚类中所有点的平均值，并将其作为新的聚类中心点。

最后，重复 (二)，(三) 步的过程，直至聚类中心不再发生改变，或者算法达到预定的迭代次数，又或聚类中心的改变小于预先设定的阀值。
在实际应用中，K-means 算法有两个不得不面对并且克服的问题。

聚类个数 K 的选择。K 的选择是一个比较有学问和讲究的步骤，我们会在后文专门描述如何使用 Spark 提供的工具选择 K。

初始聚类中心点的选择。选择不同的聚类中心可能导致聚类结果的差异。
Spark MLlib K-means 算法的实现在初始聚类点的选择上，借鉴了一个叫 K-means||的类 K-means++ 实现。K-means++ 算法在初始点选择上遵循一个基本原则: 初始聚类中心点相互之间的距离应该尽可能的远。基本步骤如下:

第一步，从数据集 X 中随机选择一个点作为第一个初始点。
第二步，计算数据集中所有点与最新选择的中心点的距离 D(x)。
第三步，选择下一个中心点，使得
这里写图片描述
最大。
第四部，重复 (二),(三) 步过程，直到 K 个初始点选择完成。

MLlib 的 K-means 实现
Spark MLlib 中 K-means 算法的实现类 (KMeans.scala) 具有以下参数，具体如下。
下面这个是mlib中类的定义

@Since("0.8.0")
class KMeans private (
    private var k: Int,
    private var maxIterations: Int,
    private var runs: Int,
    private var initializationMode: String,
    private var initializationSteps: Int,
    private var epsilon: Double,
    private var seed: Long)

mlib构造函数的定义

def this() = this(2, 20, 1, KMeans.K_MEANS_PARALLEL, 5,

最低0.47元/天解锁文章

Xlucas

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录