Spark学习笔记
文章平均质量分 56
SCAU_Jimmy
机器学习爱好者
展开
-
Spark笔记(1)-Spark初体验
最近在实习,公司用的Spark,需要学习一下,废话少说,开始学习旅程。说到Spark,不得不提一下MapReduce,众所周知,Spark的出现,正是用来替代原来的MapReduce计算框架,对于传统的MapReduce来说,存在许多局限性:1. 只支持Map和Reduce两种操作,编程不够灵活2. 处理效率低:map中间结果写入磁盘,reduce写HDFS,多个MR间通过HD原创 2016-12-03 20:42:11 · 432 阅读 · 0 评论 -
Spark笔记(2)-Spark计算引擎剖析
上文简单对Spark进行了总结,本文旨在进一步对Spark计算引擎进行剖析。val textFile = sc.textFile(args(1))val result textFile .flatMap(line => line.split("\\s+")) .map(word => (word,1)) .reduceByKey(_+_)result.saveAsTextFile原创 2017-01-14 14:58:05 · 445 阅读 · 0 评论 -
Spark笔记(3)-Spark程序调优
对于一个Spark程序,采用不同的优化,运行效率差别很大,下面是对Spark程序调优进行总结:优化Spark运行环境1. 防止不必要的jar包上传于分发2. 提高数据本地性 解决方法:计算与存储同节点部署、增加executor数目、增加数据副本数3. 存储格式选择 选择列式存储:减少读IO量,占用存储空间少(压缩比高)优化RDD操作符的使用方法原创 2017-01-15 17:34:16 · 363 阅读 · 0 评论