spark重要特点:中间结果可以保存在内存中(内存计算)
spark是基于内存的
速度比基于硬盘(HDFS)的MapReduce更快
spark生态系统(BDAS)
伯克利数据分析栈(BDAS)
Spark Core
提供spark核心功能,实现了spark的底层机制并提供基本数据抽象格式
Spark SQL
提供Spark SQL语言的解析和执行
Spark Streaming
流式计算框架,提供了数据流的接入,抽象,计算等规范
MLlib
机器学习框架,常用机器学习算法的分布式实现
GraphX 分布式图计算框架,常用图算法的分布式实现
Tachyon 分布式文件存储系统
Scala
由java开发,基于JVM运行,计算速度快(比python快近10倍),可无缝调用java API,完美兼容HAdoop生态组件(由java开发)类型系统较复杂,语法简洁,支持函数式编程
多范式编程语言,多范式特性,集成了面向对象编程和函数式编程
函数式编程(FP)
是一种使用函数编程的编程范式
建立在函数的Lambda演算的基础之上
Lambda演算
函数可视为一种数据类型
函数的参数和返回值均可为函数类型
即函数可以参数形式传入另一个函数也可以返回值形式作为一个函数的运算结果
特点: