spark初识

spark官网

http://spark.apache.org

hadoop缺陷:

hadoop处理流程较为复杂,在map-reduce过程中需要不断的将数据落入磁盘,造成性能低下。

spark优化:

基于内存进行计算,尽量不落地,提高效率。达到hadoop的10-100倍处理速度。

spark设计:

基于actor模式的akka框架,代码结构简洁。
基于DAG(有向无环图)的执行引擎,减少了计算时频繁读写磁盘的开销。
RDD弹性分布式数据集,统一了各个数据源的数据形式,使后期计算不用再考虑数据格式引发的问题,且可进行分布式处理(数据源如日志,mysql,Nosql,爬虫爬取等)
提供Cache机制来实现数据共享,进一步提升性能。(比方说一个运算需要10步,可以在第5步进行缓存)
生态圈丰富,支持sparkCore、sparkSql(可对标hive)、sparkStreaming(可对标storm)、Graphix(图计算)、MLlib(机器学习)
支持java、scala、python。
底层使用HDFS作为存储结构,可使用yarn作为协调框架。

spark local模式搭建

https://blog.csdn.net/starkpan/article/details/86437089

 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值