![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
晚春初夏的你
这个作者很懒,什么都没留下…
展开
-
Spark Rdd算子
s(1)创建spark context val conf: SparkConf = new SparkConf().setAppName("transactionRDD").setMaster("local[2]") val sc = new SparkContext(conf) (2)创建rdd:弹性分布式数据集 --使用内存集合创建 创建rdd的方式,不设置分区数,默认分区数是核数:local[num] val rdd1: RDD[Int] = sc.parallelize(List(1, 2, 3,原创 2020-08-18 16:22:21 · 332 阅读 · 1 评论 -
Spark Rdd持久化
Rdd持久化 --持久化方式1 RDD:缓存机制 cache persist cache=persist(MEMORY) 注意点: cache()或persist()后不能再有其他算子 cache()或persist()遇到Action算子完成后才生效 应用场景: 从文件加载数据之后,因为重新获取文件成本较高 经过较多的算子变换之后,重新计算成本较高 单个非常消耗资源的算子之后 缓存策略:StorageLevel MEMORY_ONLY MEMORY_AND_DISK DISK_ONLY val v原创 2020-08-18 16:20:27 · 104 阅读 · 0 评论