spark
文章平均质量分 65
QiuYang18
这个作者很懒,什么都没留下…
展开
-
spark的持久化
spark的持久化cachepersisitcheckpoint以上算子都可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不仅能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。1. cache默认将RDD的数据持久化到内存中。cache是懒执行。注意:cache () ...原创 2018-11-30 14:29:52 · 606 阅读 · 0 评论 -
spark的wordcount(scala与java版本)
Scala与java版本的WordCount1.Scala版本-涉及算子textFile,非算子,读取数据,生成一个RDD,RDD的每个元素是文件的一行flatmap算子:一对一的映射map算子:一对多的映射reduceByKey算子:先分组,再reducesortBy算子:参数1指定排序字段,参数2指定正反序(Java的pairRDD不存在该算子)sortByKey算子:参数指...原创 2018-11-30 14:45:41 · 337 阅读 · 0 评论 -
spark常用RDD的练习
spark的核心RDD1.RDD是什么?(5个特性)RDD是由一系列partition组成算子是作用与partition上的(而非RDD)RDD之间有依赖关系分区器是作用在K-V格式的RDD上partition对外提供最佳计算位置,利于数据处理的本地化2.RDD的理解hdfs有多个block块(128M),它是hdfs最小的存储单元,RDD由partition构成,parti...原创 2018-11-30 14:48:02 · 740 阅读 · 0 评论