Spark MLlib(一) Guide

最新推荐文章于 2024-06-16 00:51:34 发布

ThisIsNobody

最新推荐文章于 2024-06-16 00:51:34 发布

阅读量199

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_42129080/article/details/81056443

版权

Spark 专栏收录该内容

36 篇文章 0 订阅

订阅专栏

是什么？

是Spark machine learning的库文件

为什么？

使实践ML简单且可扩展

什么功能？

1 ML算法：分类，回归，聚类，协同过滤

2 特征：特征提取，转化，降维，选择

3 管线：创建，评估，调谐ML管线

4 持久化：保存和加载算法，models和管线

5 公用工具：线性代数，统计学，data handling

版本更新

2.0之后主API是DataFrame_based API，RDD_based API不再新增功能，3.0后会被移除

为什么换成Dataframe_based API：

1 提供高级API

2 丰富的Spark Datasources

3 Tungsten和Catalyst优化

4 SQL/DataFrame查询

5 跨语言的通用API

包依赖

1 MLlib使用线性代数包Breeze，Breeze依赖于netlib-java的优化数值处理

2 最流行的BLAS是Intel MKL，OpenBLAS，可以在单操作中使用多线程，会导致Spark执行模型冲突，通常使用单线程

主要内容

1 basic statistics

2 pipelines

3 extracting, transforming and selecting features

4 classification and regression

5 clustering

6 collaborative filtering

7 frequent pattern mining

8 model selection and tuning

9 advanced topics

http://www.scalanlp.org/

https://skillsmatter.com/skillscasts/5849-high-performance-linear-algebra-in-scala

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ThisIsNobody

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Apache Spark MLlib

程序员光剑

07-02

105

Apache Spark MLlib 作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming / TextGenWebUILLM Apache Spark MLlib Apache Sp

基于Spark MLlib 的推荐系统：实现个性化推荐和协同过滤算法原理

程序员光剑

06-29

6354

参与评论您还未登录，请先登录后发表或查看评论

mllib调参 spark_Spark ML Tuning：模型选择和超参调优

weixin_39647471的博客

12-19

413

Spark的MLlib专门设计了一些工具用来对ML算法和Pipeline进行调优。比如内置的交叉验证和其他工具能够方便用户对算法和Pipeline的超参数调优。我们知道Pipeline可以看成是多个算法的组装，比如用特征提取的算法、特征转换的算法、特征选择的算法再加上对特征学习的分类聚类回归协同过滤等等算法组合成一个Pipeline。刚刚提到的这些算法都是这个Pipeline中的一个stage，对...

Spark MLlib数据挖掘1--Spark MLlib概述和spark算子

qiaoqiaomanman的博客

04-02

1067

Spark MLlib数据挖掘一、Spark MLlib概述 MLlib是Spark的机器学习（Machine Learning）库，旨在简化机器学习的工程实践工作，并方便扩展到更大规模。 MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。 1.Spark MLlib算法库 Spark Mllib能够提供所有类型的机器学...

Spark学习之路——8.Spark MLlib

Nelson_hehe的博客

02-02

952

MLlib的官网文档： http://spark.apache.org/docs/latest/ml-guide.html 本节主要内容：一、MLlib简述二、基本数据类型三、汇总统计四、实例应用K-means算法一、MLlib简述： 1.MLlib是什么？ MLlib是Spark的机器学习(ML)库。它的目标是让实用的机器学习变得可扩展和容易。在高层次上，它提供以下工...

用Spark MLlib进行数据挖掘

大数据

05-27

961

import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{RandomForestClassificationModel, RandomForestClassifier} import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator import org.apache.spark.ml.feature.{IndexToStri.

spark mllib svm java_【原】Spark-mllib简单的使用：SVM支持向量机

weixin_33672838的博客

03-04

256

我的确是3天前才知道MLlib的存在，汗。。。基本上就是一个类似于mahout的东西，包括一些常用机器学习算法在Spark上的实现。目前有：BinaryClassification(二分)、LinearRegression(回归)、Clustering(聚类)、CollaborativeFiltering(协同过滤)、Gradient Descent Primitive(梯度下降)。试用了下Bin...

SparkMLlib简介

最新发布

AI架构设计之禅

06-16

629

1. 背景介绍随着大数据时代的到来，机器学习技术在各个领域得到了广泛的应用。而Spark作为一个快速、通用、可扩展的大数据处理引擎，其内置的机器学习库MLlib也成为了众多数据科学家和工程师的首选。 Spark MLlib提供了丰富的机器学习算法和工具，包括分类、回归、聚类、协同过滤、降维等多种常用算法，同时也支持特征提取、模型评估、

scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps

ThisIsNobody的博客

07-08

1万+

将scala-sdk从2.12换为2.11File -> Project Structure -> Global libraries -> Remove SDK -> Rebuild.

Spark八读取和保存数据之文件格式与文件系统

ThisIsNobody的博客

07-04

3062

Spark支持Hadoop MapReduce使用的InputFormat和OutputFormat接口访问数据，HDFS/HBase/S3/Cassandra等大部分文件格式和存储系统都支持这种接口三种数据源文件格式和文件系统 > 本地文件系统和分布式文件系统：NFS/HDFS/S3 > 文件格式：文本文件/JSON/SequenceFile/protocol buffe...

Spark2.3.1 API RelationalGroupedDataset

ThisIsNobody的博客

07-12

2352

org.apache.spark.sql.RelationalGroupedDataset1 最经常是由DataFrame的groupBy创建2 也可以由DataFrame的cube，rollup创建3 还可以由自身的pivot创建功能1 主要用来做agg函数计算2 还有一些常用的统计方法，如sum, count, min等...

Spark二安装本地模式Spark

ThisIsNobody的博客

07-02

1399

Spark是使用Scala编写的，运行在JVM上1) 安装JDK2) 下载并解压缩spark-2.3.1-bin-hadoop2.7.tgz3) 打开Scala版本的shell，输入bin/spark-shell4) 调整日志级别控制输出信息 conf/log4j.properties log4j.rootCategory=WARN, console #设置为只显示警告和严重的信息5)...

Spark一 Spark概念和特征

ThisIsNobody的博客

07-02

1179

Spark是基于内存处理大规模数据的通用快速计算引擎特征：1) 快速：速度远超Hadoop计算速度2) 易使用：提供Java，Python，Scala，SQL等API3) 通用性：支持交互式查询，流处理，批处理，机器学习算法和图形处理4) 到处运行：Standalone, Hadoop，Cassandra等数据工具配合使用Spark Core1) 实现基本功能，任务调度，内存管理，错误恢复，与存储...

Spark十五 Spark Streaming之架构和抽象，24/7不间断运行，性能考量

ThisIsNobody的博客

07-07

912

Spark Streaming使用离散化流(discretized stream)DStream作为抽象表示1) DStream是随时间推移而受到的RDD的序列，输入源可以是Flume，Kafka，或HDFS2) DStream支持两种操作 > 转化操作：生成新的DStream > 输出操作：把数据写入外部系统3) 检查点机制实现不间断工作1 架构和抽象1)...

Spark七 Pair RDD转化操作

ThisIsNobody的博客

07-04

861

Pair RDD: 提供并行操作各个键和跨节点重新进行数据分组的操作接口创建Pair RDD1) 把普通的RDD转化为Pair RDD使用map方法将lines划分为以首个单词为键，行内容为值的Pair RDDval pairs = lines.map(x => (x.split(" ")(0), x)2) 驱动器程序中创建Pair RDD调用SparkContext.parallelize...

Spark MLlib 实现线性回归算法

05-25

Spark MLlib 是 Apache Spark 提供的一个机器学习库，其中包括了许多常见的机器学习算法，包括线性回归。下面是使用 Spark MLlib 实现线性回归算法的一般步骤： 1. 加载数据首先需要加载训练数据，这里我们假设...