来源:《spark实战》讲义
[1 ]Spark之上提供了四种应用库:
- Spark SQL 是为处理结构化数 据而设计的模块
- Spark Streaming 可以很容易 地创建可扩展和容错性的流 式应用
- MLlib 是Spark的可扩展机器 学习库
- GraphX 是Spark的并行图计算 API
[2 ]Spark序列化:
- Spark默认是使用Java的 ObjectOutputStream框架,它支持所有的继承于java.io.Serializable序列化。
- Spark还支持这种方式Kryo serialization, 它的速度快,而且压缩比高于Java的序列化,通常比Java快10x,并且需要在程序里面注册
[3 ]Spark的共享变量:
-
Broadcast
read-only
从task粒度上升到node粒度
广播变量被创建后,能在集群中运行的任何函数调用 -
Accumulators
累加器Added
MapReduce中的counters就是不断累加的变量
Spark原生支持Int和Double类型的累加变量
[4 ]RDD的工作原理: