数据倾斜处理日记1

本文介绍了数据倾斜的两种情况,重点关注唯一值少的情况。问题源于sql中的join操作,关联条件存在大量重复值,导致数据严重倾斜。为解决此问题,提出了先聚合后关联的策略,通过提前对子查询进行聚合并统一关键关联条件的记录数,显著减少了计算负担,将运行时间从半小时降至4分钟。
摘要由CSDN通过智能技术生成

前置知识

数据倾斜一般包括两种情况

  1. 一种是唯一值非常少,极少数值有非常多的记录值(唯一值少于几千)
  2. 一种是唯一值比较多,这个字段的某些值有远远多于其他值的记录数,但是它的占比也小于百分之一或千分之一

本文中的情况属于第一种
参考链接(数据倾斜原理及解决方案)

sql类型

  • spark-sql

根本问题

  • join关联条件有大量重复值

解决方案

  • 对有大量重复值的表进行先聚合后关联

具体情况

  • 在做一个取数需求的时候,在sql中一开始采取先把所有子查询明细联合,最外层select再进行聚合计算的策略。
  • 代码逻辑大致如下
select
	items.item_id,
	count(distinct 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值