spark
文章平均质量分 65
QiuYang18
这个作者很懒,什么都没留下…
展开
-
spark的持久化
spark的持久化 cache persisit checkpoint 以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。 1. cache 默认将RDD的数据持久化到内存中。cache是懒执行。 注意:cache () ...原创 2018-11-30 14:29:52 · 605 阅读 · 0 评论 -
spark的wordcount(scala与java版本)
Scala与java版本的WordCount 1.Scala版本 -涉及算子 textFile,非算子,读取数据,生成一个RDD,RDD的每个元素是文件的一行 flatmap算子:一对一的映射 map算子:一对多的映射 reduceByKey算子:先分组,再reduce sortBy算子:参数1指定排序字段,参数2指定正反序(Java的pairRDD不存在该算子) sortByKey算子:参数指...原创 2018-11-30 14:45:41 · 337 阅读 · 0 评论 -
spark常用RDD的练习
spark的核心RDD 1.RDD是什么?(5个特性) RDD是由一系列partition组成 算子是作用与partition上的(而非RDD) RDD之间有依赖关系 分区器是作用在K-V格式的RDD上 partition对外提供最佳计算位置,利于数据处理的本地化 2.RDD的理解 hdfs有多个block块(128M),它是hdfs最小的存储单元,RDD由partition构成,parti...原创 2018-11-30 14:48:02 · 739 阅读 · 0 评论