【spark笔记】spark四大特性

 

刚转大数据三个月,最近学习一套spark视频,希望搞个博客记录一下,以便翻阅。

 

Spark四大特性:

1、        Speed   快速

2、        Easy of use易用性

3、        Generality 通用性    sparksql、sparkstreaming、机器学习、图计算

4、        Runs everywhere      hadoop、mesos、standalone 、cloud

Spark四种部署模式:hadoop(spark on yarn 用yarn资源管理来管理spark资源)Mesos类似于yarn的资源管理器,但是国内用得不多。Standalone模式(spark自己管理资源,这也是用得比较多的一种),还有一种模式就是能部署到云端。

 

Hive:通过写SQL,把SQL转换成MapReduce代码去hadoop平台上执行

 

Hive和pig语法不同

 

MapReduce基于磁盘的多次迭代的这么计算框架

Map->结果输入到磁盘  复制reduce端磁盘—写到磁盘   多次写到磁盘 、网络传输

 

Spark Core 吸收MapReduce所有优点,更优秀,灵活,快,MapReduce之所以慢, 多次把中间结果写到磁盘,spark把中间结果写到内存里面,在内存迭代。

spark超80个类似MapReduce这样的操作 map  reduce,丰富的API

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值