Spark MLlib---逻辑回归与决策树

最新推荐文章于 2023-08-15 20:25:10 发布

Rachel_nana

最新推荐文章于 2023-08-15 20:25:10 发布

阅读量519

点赞数

分类专栏： pyspark

本文链接：https://blog.csdn.net/abcdrachel/article/details/105814873

版权

pyspark 专栏收录该内容

9 篇文章 3 订阅

订阅专栏

1、Spark MLlib的简介

机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，以此优化计算机程序的性能标准。

机器学习强调三个关键词：算法、经验、性能

用算法对数据进行训练以后得到的才叫模型。

传统的机器学习算法，由于技术和单机存储的限制，只能在少数数据上使用，依赖于数据的抽样。由于大数据技术的出现，现在有了海量的存储空间，以及非常丰富的计算能力，就不需要进行抽样，完全可以在全量数据上进行机器学习。

机器学习算法涉及大量的迭代计算，可以使用MapReduce进行机器学习，但MapReduce有很个大的缺陷，它是基于磁盘的计算框架，会经常发生读写磁盘，每个MapReduce结束之后，都会写入磁盘。若遇到迭代计算，每次迭代都会写入磁盘，从而造成磁盘读写开销非常大。而Spark是基于内存的计算框架，它使用有向无环图的机制，让我们的操作数据尽量不落入磁盘中，尽量在内存中完成数据的握手，一个操作的输出，马上作为另一个操作的输入。这样Spark就避免了频繁的读写磁盘开销，故Spark非常适合机器学习。

Spark提供了一个基于海量数据的机器学习库，提供了常用的机器学习算法的分布式实现。这些算法之前都是单机版的，Spark实现了分布式的算法，这样可以集群的方式，帮助大大提升运行的能力。对于使用者来说，只需要基本的Spark编程基础，并且能够简单地理解机器学习算法的原理，以及相关参数的含义，就能相应轻松地调用Spark提供的相应API，实现基于海量数据的机器学习过程。同时pyspark的即席查询也是一个关键，使用者可以编写代码边观察结果，从而提高开发能力。

但是需要注意的是并不是所有机器学习算法都能用在Spark当中，只有那些能够被改造成集群式算法，或能够在集群中分布式并行计算的算法，才能拿来进行改造，得到Spark。有些算法是不能改造的，只能有单机版，没办法进行并行的。

MLlib包含以下几大部分：

算法工具：分类、回归、聚类、协同过滤

特征化工具：特征提取、特征转化、特征降维、特征选择工具

流水线工具：pipeline（用来构建、评估机器学习工作流）

持久性：保存算法、加载算法、模型、管道

实用性工具：线性代数、统计、数据处理等等

不同版本的Spark里面所包含的库是不一样的，现有spark.mllib和spark.ml包

现spark已实现的算法：

2、机器学习流水线

在学习机器学习流水线之前，我们先了解下DataFrame。较之RDD，DataFrame包含schema信息，更类似传统数据库的二维表格使用spark SQL中的DataFrame作为数据集，它可以容纳各种数据类型。它被ML Pipeline用来存储源数据。例如，DataFrame中的列可以是存储的文本，特征向量，真实标签和预测的标签等。

转换器：将一个DataFrame转换为另一个DataFrame

评估器：可以理解为算法

参数：

PipeLine：流水线，将多个工作流阶段连接到一起形成机器学习工作流，并获得输出结果。多个阶段即指我们定义好的转换器和评估器。

构建流水线

值得注意的是：流水线本身也可以看着是一个估计器。在流水线的fit()方法运行之后，它产生一个PipeLineModel，它是一个Transformer。这个管道模型将在测试数据的时候使用，用来预测从数据。

3、特征提取：TF-IDF

TF-IDF：词频-逆向文件频率，词语由t表示，文档由d表示，语料库由D表示。词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语t的文档个数。

TF：HashingTF是一个转换器Transformer，在文本处理中，接收词条的集合然后把这些集合转换为固定长度的特征向量。这个算法在哈希的同时会统计各个词条的词频。

IDF：IDF是一个估计器Estimator，在一个数据集上应用它的fit()方法，产生一个IDFModel。该IDFModel接收特征向量（由HashingTF产生），然后计算每一个词在文档中出现的频次。IDF会减少那些在语料库中出现频率较高的词的权重。

2000个哈希桶，[240，333，1105，1329，1357，1777]分别表示每个单词被哈希后放入号码为240、333等的哈希桶里，后面的1,2等分别表示单词的词频。

4、特征抽取：Word2Vec

在机器学习处理过程中，为了方便相关算法的实现，经常需要把标签数据（一般是字符串）转化成整数索引，或是在计算结束后将整数索引还原为相应的标签。

Spark ML包中提供了几个相关的转换器，例如：StringIndexer、IndexToString、OneHotEncoder、VectorIndexer，它们提供了十分方便的特征转换功能，这些转换器类都位于org.apache.spark.ml.feature包下。

值得注意的是，用于特征转换的转换器和其他的机器学习算法一样，也属于ML Pipeline模型的一部分，可以用来构成机器学习流水线，以StringIndex为例，其存储着进行标签数值化过程的相关超参数，是一个Estimator，对其调用fit(...)方法即可生成相应的模型StringIndexModeler类，很显然，它存储了用于DataFrame进行相关处理的参数，是一个Transformer（其他转换器也是同一个原理）。

5、Logistic Regression

Logistic Regression是统计学中的经典分类算法，属于对数线性模型。其因变量可以是二分类的也可以是多分类的。

实例：

6、决策树分类器

实例：

Rachel_nana

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark MLlib---逻辑回归与决策树

1、Spark MLlib的简介机器学习可以看做是一门人工智能的科学，该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验，以此优化计算机程序的性能标准。机器学习强调三个关键词：算法、经验、性能用算法对数据进行训练以后得到的才叫模型。传统的机器学习算法，由于技术和单机存储的限制，只能在少数数据上使用，依赖于数据的抽样。由于大数据技术的出现，现在有了海量的存储空间，以及非...
复制链接

扫一扫

专栏目录