Spark 机器学习库简介

转载 2016年08月30日 17:07:50

Spark 机器学习库简介

Spark 机器学习库提供了常用机器学习算法的实现,包括聚类,分类,回归,协同过滤,维度缩减等。使用 Spark 机器学习库来做机器学习工作,可以说是非常的简单,通常只需要在对原始数据进行处理后,然后直接调用相应的 API 就可以实现。但是要想选择合适的算法,高效准确地对数据进行分析,您可能还需要深入了解下算法原理,以及相应 Spark MLlib API 实现的参数的意义。

需要提及的是,Spark 机器学习库从 1.2 版本以后被分为两个包,分别是:

  • spark.mllib

Spark MLlib 历史比较长了,1.0 以前的版本中已经包含了,提供的算法实现都是基于原始的 RDD,从学习角度上来讲,其实比较容易上手。如果您已经有机器学习方面的经验,那么您只需要熟悉下 MLlib 的 API 就可以开始数据分析工作了。想要基于这个包提供的工具构建完整并且复杂的机器学习流水线是比较困难的。

  • spark.ml

Spark ML Pipeline 从 Spark1.2 版本开始,目前已经从 Alpha 阶段毕业,成为可用并且较为稳定的新的机器学习库。ML Pipeline 弥补了原始 MLlib 库的不足,向用户提供了一个基于 DataFrame 的机器学习工作流式 API 套件,使用 ML Pipeline API,我们可以很方便的把数据处理,特征转换,正则化,以及多个机器学习算法联合起来,构建一个单一完整的机器学习流水线。显然,这种新的方式给我们提供了更灵活的方法,而且这也更符合机器学习过程的特点。

从官方文档来看,Spark ML Pipeline 虽然是被推荐的机器学习方式,但是并不会在短期内替代原始的 MLlib 库,因为 MLlib 已经包含了丰富稳定的算法实现,并且部分 ML Pipeline 实现基于 MLlib。而且就笔者看来,并不是所有的机器学习过程都需要被构建成一个流水线,有时候原始数据格式整齐且完整,而且使用单一的算法就能实现目标,我们就没有必要把事情复杂化,采用最简单且容易理解的方式才是正确的选择。


spark总体概况

1. spark vs hadoopPS:Databricks团队特别说明,为了和Hadoop对比,这次用于排序的Spark集群没有使用它们的内存缓存机制,他们也是用硬盘存储的中间结果! http:...
  • stark_summer
  • stark_summer
  • 2015年05月22日 15:18
  • 16526

Spark的RDD原理以及2.0特性的介绍

Spark 是 Apache 顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作。包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。全世界有许多公司和组织使用或给社区贡献...
  • guohecang
  • guohecang
  • 2016年06月15日 16:47
  • 906

Spark入门实战系列--1.Spark及其生态圈简介

Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark ...
  • yirenboy
  • yirenboy
  • 2015年08月05日 11:18
  • 4430

Spark设计理念与基本架构

Spark是一个通用的并行计算框架,由加州伯克利大学(UCBerkeley)的AMP实验室开发于2009年,并于2010年开源。2013年成长为Apache旗下为大数据领域最活跃的开源项目之一。Spa...
  • beliefer
  • beliefer
  • 2016年01月22日 13:52
  • 18944

Spark修炼之道系列教程预告

课程内容 Spark修炼之道(基础篇)——Linux基础(12讲)大纲 Spark修炼之道(进阶篇)——Spark入门到精通(30讲)大纲 Spark修炼之道(实战篇)——Spark应用开发实战篇...
  • lovehuangjiaju
  • lovehuangjiaju
  • 2015年08月24日 09:56
  • 9437

Spark Streaming基础概念介绍

有很多文章讲解storm与spark streaming的区别,都非常详细。 本文就介绍一下spark streaming比较重要的概念 Storm可以实现亚秒级时延的处理,而每次只处理一条even...
  • yueqian_zhu
  • yueqian_zhu
  • 2015年09月29日 09:19
  • 1165

Spark入门实战指南——Spark生态圈+第一个Spark程序

一、Spark及其生态圈简介 1.目前大数据处理场景有以下几个类型: 1.  复杂的批量处理(BatchData Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可...
  • lishuan182
  • lishuan182
  • 2016年08月29日 16:04
  • 1194

Spark机器学习库(MLlib)指南

spark-1.6.1 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年07月18日 23:14
  • 3661

定制带第三方库的python,解决spark/hadoop环境中sklearn的调用问题

Conda, Miniconda (Python)这是一个python定制的好工具。忙活了一整天,终于发现了它,这个工具可以让我们定制python和对应的第三方的库,方便我们在不同机器上执行这些第三方...
  • xum2008
  • xum2008
  • 2015年09月29日 20:53
  • 2552

Spark机器学习库mllib之协同过滤

很久就想写一篇ML的实践文章,虽然看过肯多资料,总觉得纸上谈兵印象不深刻,过不了多久就忘了,现在就借Spark的Mllib来简单的实际一下推荐算法吧。       说起推荐算法,大家耳熟能详的就是CF...
  • u014388509
  • u014388509
  • 2014年06月25日 18:01
  • 9064
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Spark 机器学习库简介
举报原因:
原因补充:

(最多只允许输入30个字)