![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Ryu_xxx
这个作者很懒,什么都没留下…
展开
-
spark基础知识点
1 缓存及缓存级## 标题别缓存的方法有两个cache和persist缓存有两个方法cache和persist, 通过源码可以看出cache调用了persist, 所以这两个方法运行的效率可以看做是一样的在persist方法中需要传入StorageLevel这个对象StorageLevel对象中可以指定缓存的数据存入到内存中, 磁盘中, 堆外缓存中, 是否关闭序列化, 以及副本数量存储级别的选择MEMORY_ONLY > MEMORY_ONLY_SER > MEMORY_AND_原创 2020-09-12 13:51:52 · 616 阅读 · 0 评论 -
groupByKey与reduceByKey区别
用spark所写的程序中shuffer操作非常耗时,所以会有专门针对这个shuffer的优化,来提高效率,但是有时你必须进行一些带有shuffer的操作的算子,比如groupByKey和reduceByKey。这两个都是针对于元祖(key,value)类型的数据进行重排与聚合操作。groupByKey:它是将RDD中相同的key值得数据(value)合并成为一序列,只能输出相同key值得序列。...原创 2019-02-22 20:57:42 · 808 阅读 · 0 评论