Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。

转载 2016年08月31日 14:33:57


Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。它们的主要应用场景是:


Spark Streaming:
Spark Streaming基于微批量方式的计算和处理,可以用于处理实时的流数据。它使用DStream,简单来说就是一个弹性分布式数据集(RDD)系列,处理实时数据。


Spark SQL:
Spark SQL可以通过JDBC API将Spark数据集暴露出去,而且还可以用传统的BI和可视化工具在Spark数据上执行类似SQL的查询。用户还可以用Spark SQL对不同格式的数据(如JSON,Parquet以及数据库等)执行ETL,将其转化,然后暴露给特定的查询。


Spark MLlib:
MLlib是一个可扩展的Spark机器学习库,由通用的学习算法和工具组成,包括二元分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。用于机器学习和统计等场景


Spark GraphX:
GraphX是用于图计算和并行图计算的新的(alpha)Spark API。通过引入弹性分布式属性图(Resilient Distributed Property Graph),一种顶点和边都带有属性的有向多重图,扩展了Spark RDD。为了支持图计算,GraphX暴露了一个基础操作符集合(如subgraph,joinVertices和aggregateMessages)和一个经过优化的Pregel API变体。此外,GraphX还包括一个持续增长的用于简化图分析任务的图算法和构建器集合。

Spark(五) -- Spark Streaming介绍与基本执行过程

Spark Streaming作为Spark上的四大子框架之一,肩负着实时流计算的重大责任 而相对于另外一个当下十分流行的实时流计算处理框架Storm,Spark Streaming有何优点?又有何...
  • qq1010885678
  • qq1010885678
  • 2015年05月16日 20:11
  • 1953

spark内核解密

一:Spark天堂之门:SparkContext! 1, Spark程序在运行的时候分为Driver和Executors两部分; 2, Spark的程序编写是基于SparkContext的,具体来...
  • a11a2233445566
  • a11a2233445566
  • 2017年01月18日 14:43
  • 167

Spark笔试题

1. Spark 的四大组件下面哪个不是 (D ) A.Spark Streaming B Mlib  C Graphx D Spark R 2.下面哪个端口不是 spark 自带服务的...
  • china_demon
  • china_demon
  • 2016年11月09日 06:54
  • 4736

从源码的角度理解四大组件的工作过程——Android开发艺术探索笔记

系统对四大组件的过程进行了很大程度的封装,日常开发中并不需要了解底层的工作原理,那么研究这些原理的意义在哪里呢? 如果你想在技术上更进一步,那么了解一些系统的工作原理是十分必要的,也是开发人员日后成长...
  • L664675249
  • L664675249
  • 2016年03月15日 10:26
  • 2085

Spark SQL+Spark Streaming案例

package SparkStreaming import org.apache.spark.SparkConf import org.apache.spark.sql.{Row, SQLConte...
  • accptanggang
  • accptanggang
  • 2016年11月10日 16:34
  • 773

Spark Streaming 结合Spark SQL 案例

本博文主要包含以下内容: String+SQL技术实现解析 Streaming+SQL实现实战 一:SparkString+SparkSQL技术实现解析:使用Spark Streaming + Spa...
  • erfucun
  • erfucun
  • 2016年08月26日 15:58
  • 4814

实战6.SparkSQL(下)--Spark实战应用

1、运行环境说明 1.1 硬软件环境 l  主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存 l  虚拟软件:VMware® Workstation 9.0.0 build-...
  • xiangxizhishi
  • xiangxizhishi
  • 2017年09月12日 00:20
  • 266

Spark组件之Spark Streaming学习3--结合SparkSQL的使用(wordCount)

1.通过建立一个对象来获取Streaming的单例对象 val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext) ...
  • bob601450868
  • bob601450868
  • 2016年04月26日 17:26
  • 1348

spark streaming整合sparksql

在streaming中使用sparksql对apache服务器日志进行统计 package youling.studio.streaming import org.apache.spark.sql...
  • u010670689
  • u010670689
  • 2016年07月13日 18:48
  • 1525

第97课: 使用Spark Streaming+Spark SQL实现在线动态计算出特定时间窗口下的不同种类商品中的热门商品排名

第97课: 使用Spark Streaming+Spark SQL实现在线动态计算出特定时间窗口下的不同种类商品中的热门商品排名 本节课将在之前学习的Spark SQL和 DataFra...
  • duan_zhihua
  • duan_zhihua
  • 2016年05月04日 20:03
  • 941
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Spark四大组件包括Spark Streaming、Spark SQL、Spark MLlib和Spark GraphX。
举报原因:
原因补充:

(最多只允许输入30个字)