Spark介绍与安装教程(Linux系统)
Spark的介绍
Hadoop与Strom
Hadoop:
- MapReduce:为海量数据提供了计算,但只有Map和Reduce操作,操作不灵活。
- HDFS(分布式文件系统):为海量的数据提供了存储。(把全部计算机的存储能力合在一起,数据通过网络在节点之间传输)。
Strom:一个分布式的、容错的实时计算系统。
大数据处理
- 复杂的批量数据处理(batch data processing)
- 基于历史数据的交互式查询(interactive query)
- 基于实时数据流的数据处理(streaming data processing)
Spark特点与应用场景
Spark是通用的并行化计算框架,基于MapReduce实现分布式计算,其中间结果可以保存在内存中,从而不再需要读写HDFS。
特点:
- 简单方便,使用scala语言。(与RDD很好结合)
- 计算速度快,中间结果缓存在内存中。
- 高错误容忍。
- 操作丰富。
- 广播,每个节点可以保留一份小数据集。
核心:RDD(Resilient Distributed Datasets弹性分布式数据集)
应用场景:
- 迭代式算法:迭代式机器学习、图算法,包括PageRank、K-means聚类和逻辑回归(logistic regression)。
交互式数据挖掘工具:用户在同一数据子集上运行多个Adhoc查询。
框架