Spark 入门篇
1 概述
Spark是一个通用的快速的大数据处理引擎,是类似于hadoop的map reduce大数据并行处理引擎。它的数据源可以是hdfs、cassandra、hbase等,除常规编程模式外,它还是支持sql使用方式。Spark支持streaming流式计算(秒级延迟)、机器学习库MLib、图计算GraphX、Bagel(Google的pregel图计算框架的实现)、SparkR等多种库,以用于各种复杂的数据处理的场景。
基于spark的编程框架,编写简洁的数据处理脚本,通过spark shell等方式将任务提交到spark平台,spark即可完成大数据任务拆分以及处理,用户可以通过管理的页面来查看任务的处理状态。
Spark基于scala编写,目前spark框架API接口支持scala、java、python、R等语言。
2 Spark优点
Spark 于2012年推出,相对hadoop的map reduce框架,具备较多优点。
优点具体如下:
1) 计算速度快,官方宣称:相对于hadoop,存储基于内存时,快100倍以上,数据存储基于磁盘时快10倍以上。
2) 编程简单
做迭代计算时,不需要像hadoop反复的写多个map reduce,更多和单机的过程式编程类似,代码简单很多。
提供了map(映射处理)、filter、count、reduce、join、group by等80种以上的计算算子,直接使用即可。
简单的已有算子支持的多轮迭代计算任务