自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 repartition和coalesce区别

spark中repartition和coalesce区别

2024-04-15 20:47:34 253

原创 Spark原理

spark任务划分,task,stage,分区与并行度

2024-02-05 15:51:58 372

原创 Flink中的时间和窗口

窗口、时间语义、水位线、双流Join

2023-12-07 20:12:27 1058

原创 Flink

flink的相关概念,任务槽,并行度,算子链合并,运行模式,提交流程,部署方式

2023-12-05 03:14:16 1035

原创 grouping sets和with cube以及array+explode做多维度聚合统计

1、如果汇总维度低于3个,且需要定制化,则用grouping sets,如果超过3个,则用array+explode2、如果汇总维度低于3个,且无需定制化,则用with cube,如果超过3个,则用array+explode

2023-11-16 01:22:33 154

原创 row_number结合case when选择性排序

row_number结合case when选择性排序,开窗函数花式用法,Partion by中使用case when

2023-11-16 00:29:55 682

原创 Lag函数求环比缺陷与改进

Lag函数求环比缺陷与改进

2023-10-25 19:22:22 189

原创 hive中的sysdate到底是什么

hive中sysdate看似展现当前日期,类似current_date(),其实内部是完整时间戳,但他不可以当做current_timestamp去使用

2023-07-11 14:45:12 673

原创 date函数的在hive和mysql中的区别

1、在Hive中,截取日期尽量用substr,因为date只是展现形式和substr一致,并不是数据本身2、在mysql中,无所谓使用substr或date,效果完全一致

2023-06-20 18:04:25 202

原创 大数据之Kerberos认证

Kerberos 是一个网络身份验证协议,用于在计算机网络中进行身份验证和授权。它提供了一种安全的方式,允许用户在不安全的网络上进行身份验证,并获取访问网络资源的权限。

2023-05-15 12:18:59 5577 1

原创 一道题带你真正的理解if,where和on

一道题带你真正的理解if,where和on

2023-05-06 23:45:55 82

原创 join筛选条件位置不同的区别

本文将针对left join, inner join以及full join时筛选条件所在Join的前中后不同位置分别做剖析

2023-05-04 19:56:36 806

原创 牛客Shell面试题

牛客shell面试题,常见题

2023-04-26 18:39:32 104

原创 HIVE内表与外表的区别

hive内外表的区别,主要总结六点区别

2023-04-16 14:36:14 2165

原创 hive中trancelate和tranceform函数

trancelate用来替换字符串中的字符,而tranceform提供了在 SQL 中调用自写脚本的功能

2023-04-11 15:26:49 253

原创 关系型数据库Mysql和Oracle的区别

简要概述oracle和mysql的区别,并且对truncate和delete,distinct和group by等的区别做出解释

2023-03-28 20:06:03 182

原创 大厂sql面试题

大厂sql面试题,解题思路及注意点

2023-03-24 20:01:16 204

原创 大数据分而治之(分桶表)的应用

关于大数据场景分而治之思想的一些实践方案,包括分桶表,distribute by+sort by以及row_number的一些特殊使用场景,以及什么时候该如何选择

2023-03-13 21:54:28 225

原创 Hive调优以及数据倾斜的处理

hive调优设置mr个数,小文件处理,压缩处理,以及数据倾斜的处理等

2023-03-10 11:35:59 259

原创 ods层如何保证和Mysql镜像一致

ods层合并逻辑保持和mysql端一致的方法,以及一些注意事项与相关问题

2023-03-08 20:19:38 295

原创 数仓任务的日常问题和报错解决

离线数仓工作中的一些常见报错,内存溢出,任务数量过多,多表join后缺数据等

2023-03-08 03:26:00 501

原创 关于Hive的一些零碎知识

关于hive的一些特殊方法,冷知识,以及一些注意事项

2023-03-07 19:49:43 197

原创 DS调度流程改进设计

DS调度任务流程规划,如何最大程度利用资源,如何合理定时,控制内存

2023-03-05 22:08:42 355

原创 shell脚本实现多张表合并成一张分区表

如何快速的将普通表数据使用shell脚本导入分区表

2023-03-05 20:07:48 312

原创 关于msck是否可以删除分区

msck命令在大多数版本中是不支持drop分区的,只支持add

2023-03-05 19:39:29 221

原创 常用正则表达式

关于正则表达式的一些常见用法,以及在hive和程序中的一些使用示例

2023-03-03 22:10:57 156

原创 MapReduce参数调优

设置Map,reduce参数调优其个数,以及如何保证输出端的小文件合并等问题

2023-03-02 21:53:33 1878

原创 Hive和Spark对分区字段的处理区别

读parquet文件时对于分区字段的处理,hive不会在意文件中是否有分区字段,而spark的read.parquet方法则不相同

2023-03-02 21:20:51 715

原创 用shell脚本自动监测Kafka积压

采用两个脚本和一张hive表解决kafka数据积压而造成的影响数据合并准确性问题

2023-03-02 19:13:26 2311 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除