spark数据清洗解决方案

数据倾斜的解决方案 之 小表join大表转为小表broadcast+map大表实现。
适用场景:在对RDD使用join类操作,或者是在Spark SQL中使用join语句时,
并且join操作中的一个RDD或表的数据量比较小(比如几百M或者一两G)。
实现原理:普通的join是会走shuffle过程的,而一旦shuffle,
就相当于会将相同key的数据拉取到一个shuffle read task中再进行join,此时就是reduce join。
但是如果一个RDD比较小,则可以采用广播小RDD全量数据+map算子来实现与join同样的效果,也就是map join,
将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来,然后对其创建一个Broadcast变量;
接着对另外一个RDD执行map类算子,在算子函数内,从Broadcast变量中获取较小RDD的全量数据,
与当前RDD的每一条数据按照连接key进行比对,如果连接key相同的话,那么就将两个RDD的数据用需要的方式连接起来。
此时不会发生shuffle操作,也就不会发生数据倾斜。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
引用中提到,使用Hive ETL预处理数据可以避免Spark程序发生数据倾斜。这种方案从根源上解决了数据倾斜,因为彻底避免了在Spark中执行shuffle类算子,不会有数据倾斜的问题发生。然而,这种方式只是将数据倾斜的发生提前到了Hive ETL中,依然无法解决数据本身分布不均匀的问题。所以,尽管通过预处理可以减少Spark程序的数据倾斜,但并不能完全消除数据倾斜的可能性。 总结起来,清洗数据本身并不会造成数据倾斜。数据倾斜通常发生在shuffle过程中,而数据清洗只是为了预处理数据,不涉及shuffle操作。数据倾斜的发生往往是因为使用了一些常见的算子,如distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。这些算子在处理数据时可能导致数据倾斜的问题。 因此,要解决数据倾斜问题,除了使用Hive ETL预处理数据外,还可以采取其他方案,如使用更合适的算子、使用随机前缀或者哈希取模等技术来均衡数据分布,或者通过增加节点数、调整资源分配等手段提升系统的并行度。具体的解决方案需要根据具体情况进行选择和实施。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Spark 解决数据倾斜问题](https://blog.csdn.net/scl323/article/details/91543513)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [SparkRDD优化(四)之数据倾斜](https://blog.csdn.net/qianchun22/article/details/109715118)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值