Spark—4(Spark核心组件)

1、Spark Streaming

Spark Sreaming基于Spark Core实现了可扩展、高吞吐和容错的实时数据流处理。现在支持的数据源和处理后的结果存储如下图所示。

Spark Streaming将流式计算分解成一系列短小的批处理作业。即将Spark Streaming的输入数据按照批处理尺寸(如1秒)分成一段段的数据(Stream),每一段数据都转换成Spark中的RDD,然后将Spark Streaming中对DStream的转换操作变为Spark中对RDD的转换操作,将RDD经过操作变成中间结果保存在内存中,整个流式计算可以根据业务需求对中间结果进行叠加,或者存储到外部设备。如下图所示。

2、MLlib

MLlib是Spark对常用的机器学习算法的实现库。

3、Spark SQL

Spark SQL最常见的用途之一就是作为一个从Spark平台获取数据的渠道。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据的支持以及其他格式的支持如JSON。Spark SQL支持的数据源如下图所示。

4、GraphX

Spark GraphX是Spark提供的关于图和图并行计算的API,它集ETL、试探性分析和迭代式的图计算于一体。

5、Spark的整体代码结构

参考资料:

1. Spark技术内幕,张安站

转载于:https://my.oschina.net/liyurong/blog/3071614

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值