刚转大数据三个月,最近学习一套spark视频,希望搞个博客记录一下,以便翻阅。
Spark四大特性:
1、 Speed 快速
2、 Easy of use易用性
3、 Generality 通用性 sparksql、sparkstreaming、机器学习、图计算
4、 Runs everywhere hadoop、mesos、standalone 、cloud
Spark四种部署模式:hadoop(spark on yarn 用yarn资源管理来管理spark资源)Mesos类似于yarn的资源管理器,但是国内用得不多。Standalone模式(spark自己管理资源,这也是用得比较多的一种),还有一种模式就是能部署到云端。
Hive:通过写SQL,把SQL转换成MapReduce代码去hadoop平台上执行
Hive和pig语法不同
MapReduce基于磁盘的多次迭代的这么计算框架
Map->结果输入到磁盘 复制reduce端磁盘—写到磁盘 多次写到磁盘 、网络传输
Spark Core 吸收MapReduce所有优点,更优秀,灵活,快,MapReduce之所以慢, 多次把中间结果写到磁盘,spark把中间结果写到内存里面,在内存迭代。
spark超80个类似MapReduce这样的操作 map reduce,丰富的API