spark四大特性

官方网站:http://spark.apache.org

Apache Spark™ is a fast and general engine for large-scale dataprocessing.

解释:spark专为大规模数据处理而设计的快速通用的计算引擎 (相对于MapReduce)

特点:

1) 快速

Map端输出的结果要落地到磁盘,reduce端从磁盘读取,输出结果还要落地到磁盘  map再进行读取   (中间要经过shuffle过程)

Spark函数(类似于MapReduce)运行的时候,绝大多数的函数是可以在内存里面去迭代的。只有少部分的函数需要落地到磁盘

2) 易用性

开发语言可以有多种,scala、Java、Python,R

Java开发好处:对于大数据的大型项目来说,设计到Hbase,hive,flumn,ssh等需要整合  采用Java这个更成熟广泛的语言,更好。

Java开发坏处:代码不优雅,运行效率不如scala,但是发不了jdk1.8后,有了lambda表达式,代码好看了一点。

Scala开发好处:spark本身就是scala语言开发的,运行效率好,而且是函数式编程,代码优雅。

Spark里面有超过80个算子(类似于map reduce)等操作,spark开发起来更灵活,更简单。

3) 通用性


Spark没有出现时,需要进行计算就需要安装MapReduce,批处理就需要安装hive,pig,实时分析就需要安装storm,机器学习就需要安装mahout或者mllib,实时分析就需要安装storm,需要进行查询就需要安装Hbase。

(大数据改变了这个世界,spark改变了大数据)

Spark出现后,计算时用sparkcore(里面有很多类似于(MapReduce)算子,有很多sql语句解决不了的问题,就使用类似于MapReduce的工具),如果想要进行sql操作,spark就有sparksql(进行批处理)来代替类似MapReduce的操作,想要实时分析,就有sparkStreaming,因为spark是大多数在内存里面进行迭代,效率高,所以有mahout 适合机器学习,还有图计算,大数据开发会涉及到sparksql(hive,pig),sparkStreaming(storm),spark core(MapReduce)

4) 任何平台都可运行  

在Yarn,Mesos(是一个类似于yarn的资源管理器),standalone或者cloud(云端)上。

国内:选择yarn 上运行,因为我们之前的大数据平台就是hadoop搭建的

国外:选择Mesos,因为spark和MASOS是同一个团队编写的

Standalone不需要Mesos也不需要yarn,spark自己管理资源, 有Master和Worker   相当于ResourceManager和Nodemanager

Access data in HDFS, Cassandra, HBase, Hive, Tachyon, and any Hadoopdata source.

Spark可以计算各种各样的数据源,可以计算hdfs上的  Hbase上的  hive上的数据,kafka和flumn上的数据也可以被spark读取,ES(索引),Tachyon(alluxi(http://www.alluxio.org/)中文学习官网)是分布式的内存文件系统,由内存构成,读取时效率更高。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值