![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
ujn784
这个作者很懒,什么都没留下…
展开
-
spark学习笔记(3)
数据分区 获取数据分区 调用RDD数据的partitioner属性,得到scala.Option对象,即表示scala中用来存放可能存在的对象的容器类。 val pairs = sc.parallelize(list((1,1), (2,2), (3,3))) // 初始化原始RDD数据 pairs.partitioner // output: Option[spark.Partitioner] = None //调用partitioner方法,查看该RDD分区情况,得到结果未分区 val part原创 2020-12-06 10:44:23 · 62 阅读 · 0 评论 -
Spark学习笔记(2)
最常见单词计数问题 val input = sc.textFile(file_path) val wordsRDD = input.map(x => x.split(" ")) # method 1 val result = wordsRDD.map(x => (x, 1)).reduceByKey((x, y) => x + y) # method 2 val result = wordsRDD.countByValue() combineByKey的工作原理 当第一次在分区内.原创 2020-11-16 08:37:18 · 60 阅读 · 0 评论 -
Spark学习笔记(1)
隐式转换 导入 import ort.apache.spark.SparkContext._ 执行隐式转换,理解为:RDD根据其所存储信息类型的不同,为方便后续执行特定方法,隐式转化为对应类型的RDD(数值型或键值对型)。 持久化缓存 当需要多次使用同一个RDD,先对RDD进行持久化,即调用persist()将持久化RDD加入缓存 import ort.apache.spark.storage.StroageLevel val result = input.map(x => x * x) r.原创 2020-11-15 10:04:21 · 98 阅读 · 0 评论