《spark实战》笔记06--应用库--整体介绍

来源:《spark实战》讲义


[1 ]Spark之上提供了四种应用库:

  • Spark SQL 是为处理结构化数 据而设计的模块
  • Spark Streaming 可以很容易 地创建可扩展和容错性的流 式应用
  • MLlib 是Spark的可扩展机器 学习库
  • GraphX 是Spark的并行图计算 API
    在这里插入图片描述
    在这里插入图片描述

[2 ]Spark序列化:

  • Spark默认是使用Java的 ObjectOutputStream框架,它支持所有的继承于java.io.Serializable序列化。
  • Spark还支持这种方式Kryo serialization, 它的速度快,而且压缩比高于Java的序列化,通常比Java快10x,并且需要在程序里面注册

[3 ]Spark的共享变量:

  • Broadcast
    read-only
    从task粒度上升到node粒度
    广播变量被创建后,能在集群中运行的任何函数调用

  • Accumulators
    累加器Added
    MapReduce中的counters就是不断累加的变量
    Spark原生支持Int和Double类型的累加变量


[4 ]RDD的工作原理:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值