自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 spark面试简洁版

Spark程序的驱动进程- 每个Spark程序都包含一个Driver进程- Driver运行以后会解析代码通过SparkContext来实现Driver功能- 负责向ClusterManager主节点申请启动Executor- 负责解析代码构建Task- 负责调度、分配以及监控Task的运行Spark程序的执行进程- 每个Spark程序都包含一个或者多个Executor进程。

2023-10-18 17:02:42 64 1

原创 Hive中order by ,distribute by ,sort by ,cluster by 作用与区别(带图分析)

当需要按照指定的列对数据进行分发,并且可能需要后续的排序操作时,可以使用distribute by。hive中的order by会对查询结果集执行一个全局排序,这也就是说map阶段中所有数据会在一个ruduce中进行处理,对于大数据集是一个很大的消耗。前提reduce个数大于1,当需要按照指定的列对查询结果进行局部排序,而不要求全局有序时,可以使用sort by。cluster by 不仅有distribute by的功能,还会有reduce中的数据进行排序,相当于。

2023-10-18 15:51:59 411 1

原创 hive避免数据倾斜问题总结(个人总结,方便日后复习)

2.给空值分配随机的key值,可以分配平均数,随机数,中位数,但是空值大多为主键,用concat其他列,hash值就不一样。first:一般都是一些Map Join,Bucket Map Join,SMB Join.一般这些不需要考虑,这些配置文件基本上中台都会配置,用不到自己去操作。所以解决方法都是围绕如何分散倾斜的数据(也就是均匀分配主键key值)两种方法目的一样,都是让数据能够分散到不同的节点中,保证相对均衡。2.使用随机数与性别做组合,形成新字段,按新字段分组。second:①key值分配不均匀。

2023-10-18 11:39:51 116 1

原创 StarRocks库中,关于count(distinct)的使用

在使用count(distinct)时,经常会出现这个报错,究其原因是多次调用count(distinct column_name),但是column_name又不是相同的字段,所以导致报错出现。这个语法中,首先使用子查询获取去重后的结果集,然后再使用count(*)函数来计算结果集的行数。这个函数代替 count(distinct)

2023-09-06 09:30:32 590 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除