自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 数据倾斜如何处理场景

倾斜问题的处理策略场景1: join关联key为空/异常导致的倾斜采样方法百分比采样随机采样重分区后进行limit采样处理思路对于关联key为空的情况,可将其映射为一个随机值,然后与另一个表的key进行匹配对于热点数据,可以使用case when语句进行处理也可以使用union all合并结果场景2: group by倾斜处理思路可以使用局部聚合伪combiner或从粒度出发的方法进行处理可以通过设置一些参数来实现负载均衡,如设置hive.map.aggr参数或hive.

2023-11-02 14:12:40 107

原创 数据倾斜如何分辨场景

生产中最好先做好排查数据集大小、MapJoin、Skew参数,采样看一下是否有异常数据,包括垃圾数据和重复数据。SQL写法中注意关联条件和子查询的过滤,避免数据空关联或者数据发散。最后多习惯使用Explain查看执行计划,并且任务运行中多观察,到底是数据倾斜还是数据量实在过大,及时调整参数。

2023-09-23 19:07:36 90

原创 Hive并行参数

之前有处理过因为文件大小导致并行问题产生的数据倾斜问题,但是并不是所有场景都适用,这篇文章讲讲个人认为的并行参数心得看到很多文献和博客都表示数据倾斜的时候 可以调整并行, 但是并不是适用所有场景甚至设置失败会直接报错。

2023-09-21 10:30:00 212

原创 [持续更新] 数据仓库冷门知识

ODS层在数据仓库架构中通常是的ODS层用于接收和存储来自源系统的原始数据。在ODS层中,就算不进行数据抽取和清洗,大部分的表也需要存储历史数据,完成部分和数仓分层中。

2023-09-19 14:44:18 281

原创 生产报错和代码报错合集

报错关键字:相关参数:解析:​是Spark的一个配置参数,用于限制Driver程序接收的结果的最大尺寸。在Spark中,Driver程序负责协调整个作业的执行,并且通常在执行完一个作业后会将结果返回给客户端。如果结果的尺寸超过了所设置的值,Driver程序会抛出一个,防止因为结果过大而导致Driver程序内存溢出。该参数的默认值为1g,表示结果的最大尺寸为1GB。可以根据实际情况来调整该值,比如如果结果较大,可以增大的值,以便接收更大的结果。

2023-09-18 14:41:51 585

原创 小文件问题

不是由spark框架直接决定的,而是由输入数据的文件系统或存储系统决定的,spark读取文件来获取数据,然后分布式运行,一般都是按照文件的个数直接决定分区数, 每个文件被视为一个输入分区,所以如果希望增加这里的并行可以试试orc相关的读参数或者是map的split参数,或者是pyspark的一些支持分区的算子。说到小文件那就得说说小文件怎么来的,什么操作会产生小文件,hdfs内的小文件产生的原因,我个人总结了以下三点。动态分区如果没有事现调配好分区参数,也会产生很多小文件,甚至溢出执行引擎。

2023-09-17 08:30:00 48

原创 GBASE使用手册

新建表哈希分布表将表中某列指定为哈希分布列,然后将数据按照哈希算法的取值存储到不同的节点上。每个节点上只存储一部分数据。这种存储策略,将大表数据进行分拆,实现分布式存储,是大型数据中心最常用的数据分布方式。HASH分布列选取规则:尽量选择count(distinct)值大的列做Hash分布列,让数据均匀分布。优先考虑大表间的JOIN,尽量让大表JOIN条件的列为Hash分布列(相关子查询的相关JOIN也可以参考此原则),以使得大表间的JOIN可以直接分布式执行。

2023-09-15 14:40:03 1344

原创 ORC文件的stripe信息导致的数据倾斜问题

cdh6.3.2hive2.1最近发现有一个简单的spark on hive on yarn的 hql逻辑的map阶段需要跑很久很久,27MB,有shuffle 10MB的情况下, 居然要执行七个多小时根据yarn界面定位到这张读的很慢的表, 并且去9870页面观察这张表的分区和数据分布情况还有这张表的生成sql情况, 发现这张表其实是一张宽表,只是比较小,但是由于是宽表并且hql逻辑中有很多unionall联合小表的操作, 导致这个表在触发hive的orc小文件合并的时候, 最后生成的这个27M的文件块

2023-09-14 17:07:04 108 4

原创 Pyspark环境问题

常见的环境变量设置有若干linuxwindowpython分别是配置在代码中的优先级最高。

2023-09-14 15:32:57 209

原创 Hive 相关的reduce参数设置

环境环境问题有些dw宽表加工速度慢表加工逻辑是io密集任务,不是cpu计算任务,且不涉及数量特别多表关联过程看了8088,发现倾斜基本发生在mapstage看DAG调度图现象就是只分配了极少个数的map数量spark在map阶段的分配map个数的底层原理有学习过但是本人不才没有学好.... :

2023-08-09 20:22:41 153

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除