Spark 入门篇之spark&spark sql

Spark 入门篇

1      概述

       Spark是一个通用的快速的大数据处理引擎,是类似于hadoop的map reduce大数据并行处理引擎。它的数据源可以是hdfs、cassandra、hbase等,除常规编程模式外,它还是支持sql使用方式。Spark支持streaming流式计算(秒级延迟)、机器学习库MLib、图计算GraphX、Bagel(Google的pregel图计算框架的实现)、SparkR等多种库,以用于各种复杂的数据处理的场景。

基于spark的编程框架,编写简洁的数据处理脚本,通过spark shell等方式将任务提交到spark平台,spark即可完成大数据任务拆分以及处理,用户可以通过管理的页面来查看任务的处理状态。

Spark基于scala编写,目前spark框架API接口支持scala、java、python、R等语言。

2      Spark优点

       Spark 于2012年推出,相对hadoop的map reduce框架,具备较多优点。

优点具体如下:

1)   计算速度快,官方宣称:相对于hadoop,存储基于内存时,快100倍以上,数据存储基于磁盘时快10倍以上。

2)   编程简单

做迭代计算时,不需要像hadoop反复的写多个map reduce,更多和单机的过程式编程类似,代码简单很多。

提供了map(映射处理)、filter、count、reduce、join、group by等80种以上的计算算子,直接使用即可。

简单的已有算子支持的多轮迭代计算任务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值