自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Linux汇总

数组定义:数组用括号来表示,元素用“空格”符号分割开,如果元素中包含空格,则该元素使用双引号引起来访问元素: echo ${数组名[*]} 获取数组中所有元素遍历:/bin/bashdo。echo $idone默认partitioner:默认分区是根据key的hashCode(哈市叩的)对Reduce Tasks个数取模得到的。用户没法控制哪个key储存到哪个分区。自定义partitioner:①自定义类继承partitioner,重写getPartitioner()方法;

2023-04-28 13:47:48 127 1

原创 ETL面试题目

存储过程是一段预编译的SQL代码,可以接受参数并返回结果。使用场景包括:提高数据库性能、简化代码、保证数据安全性、实现复杂业务逻辑。最近我参与了一个项目,在存储过程中实现了一个批量插入数据的逻辑,通过拆分数据为多个批次,减轻了数据库的负担,提高了效率。我曾使用过的ETL工具包括Talend和Pentaho。主要功能包括数据抽取、转换、加载,数据清洗和校验,数据转化和集成。使用场景包括:BI和数据仓库、数据转换和集成、数据迁移和备份。

2023-04-28 12:03:54 3025 1

原创 ODS+DWD层详细介绍

DWD(Data WareHouse Detail)数据明细层,主要是将从业务数据库中同步过来的ODS层数据进行清洗和整合成相应的事实表。去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)、规范化、维度退化、脱敏等操作。去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)、规范化、维度退化、脱敏等操作。(3)创建分区表,防止后续的全表扫描,减少集群资源访问数仓的压力,一般按天存储在数仓中。数据脱敏:对身份证,手机号等敏感信息脱敏,加*,使用spark 脱敏。

2023-04-28 11:45:14 1056 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除