深入浅出Spark（一）

最新推荐文章于 2024-03-04 14:45:30 发布

架构森林之旅

最新推荐文章于 2024-03-04 14:45:30 发布

阅读量102

点赞数 1

分类专栏： spark 文章标签： spark 大数据数据仓库数据库 kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq597213343/article/details/124040026

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.map与mapPartitons区别（transformation操作）

map
- 针对RDD中的每个元素进行转换，粒度更细
mapPartitions
- 针对分区整体数据进行转换,粒度更粗

2.foreach与foreachPartitions区别(action操作)

foreach
- 针对RDD中每个元素就行输出，粒度更细
foreachPartitions
- 针对分区整体进行输出，粒度更粗

3.repartiton(n)与coalesce区别

repartiton(n)
- 通常用来增大分区，默认底层调用coalesce(n,shuffle=true),其实无论增大还是减小，都会产生shuffle
coalesce
- 通常用来减少分区，默认不会产生shuffle，如用来强行增大分区，也是没用的
何时增大分区？
- 当处理的数据量很多的时候，可以考虑增大分区
何时减小分区？
- 当对RDD数据进行过滤操作（filter函数）后，考虑是否降低RDD分区数目
- 当结果存储到外部系统

4.rdd.partitionBy

此算子可以制定分区器
分区器
- RangePartitoner
- HashPartitioner
- CoalescedPartitoner

5.rdd的checkpoint机制

安全性
- 内存+磁盘
  - 易失介质
  - 单点都不可靠
- HDFS
  - 非易失介质
因为cache、persisit支持的持久化存储介质内存和磁盘容易【损坏丢失】，而HDFS有【容错】、【可靠】的特性，所以将RDD的数据保存在HDFS上
HDFS=》持久化+安全
使用方式
- sc.setCheckpoinDir("hdfs:///tml/chp") //制定hdfs目录
- rdd.checkpoint
案例
- 先cache再checkpoint
  - 这样既能享受cache的速度，又能享受checkpoint的安全可靠
与持久化的区别
- 位置区别
  - persist和cache保存在磁盘和内存中，checkpoint保存在hdfs
- 生命周期
  - 当AP执行完毕，或者调用unpersist，那么persist和cache的数据会自动被清除，但是checkpoint中的数据不会自动清楚，需要手动清楚

架构森林之旅

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深入浅出Spark（一）

1.map与mapPartitons区别（transformation操作） map 针对RDD中的每个元素进行转换，粒度更细 mapPartitions 针对分区整体数据进行转换,粒度更粗 2.foreach与foreachPartitions区别(action操作) foreach 针对RDD中每个元素就行输出，粒度更细 foreachPartitions 针对分区整体进行输出，粒度更粗 3.repa
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。