spark MLLib简介

最新推荐文章于 2024-07-10 00:27:04 发布

time_exceed

最新推荐文章于 2024-07-10 00:27:04 发布

阅读量466

点赞数

分类专栏：机器学习 spark 文章标签： spark 机器学习

机器学习同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

spark

7 篇文章 0 订阅

订阅专栏

Machine Learning Library (MLlib) Guide
MLlib is Spark’s machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. At a high level, it provides tools such as:

ML Algorithms: common learning algorithms such as classification, regression, clustering, and collaborative filtering
Featurization: feature extraction, transformation, dimensionality reduction, and selection
Pipelines: tools for constructing, evaluating, and tuning ML Pipelines
Persistence: saving and load algorithms, models, and Pipelines
Utilities: linear algebra, statistics, data handling, etc.

MLLib提供一些常用的分类，回归，聚类和协同过滤算法机器学习算法。
在特征方面，也有特征提取，转化，降维，和特征选择。
应用领域：线性代数，统计学，数据处理方面等。
pipeline不知道是什么，看了一下，
原文http://www.cnblogs.com/zwCHAN/p/4633753.html
spark mllib的pipeline，是指将多个机器学习的算法串联到一个工作链中，依次执行各种算法。

在Pipeline中的每个算法被称为“PipelineStage”，表示其中的一个算法。PipelineStage分为两种类型，Estimator和Transformer，其中：
Transformer将数据转换为两一种形式（例如修改格式），以供后续的Estimator使用，统一的转换函数transform；
Estimator是由数据得到一个Mode（Mode也是继承于Transformer），有统一触发的函数fit。

然后一个“综合”的算法就可以通过pipeline封装起来。这样做的好处是可以很方便的替换算法。例如，我们在应用中往往只是笼统的期望一个“分类”、”拟合“这样的功能，但不知道是用分类或拟合的那个算法效果是最好的，有了这种pipeline机制后，很方便替换各种分类和拟合算法，从而得到最好的效果。

time_exceed

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark MLLib简介

Machine Learning Library (MLlib) Guide MLlib is Spark’s machine learning (ML) library. Its goal is to make practical machine learning scalable and easy. At a high level, it provides tools such as:ML A
复制链接

扫一扫